sebastian Quora问答 |《Python机器学习》作者Sebastian Raschka:从Python的学习经验到计算生物学的最前沿( 五 )


然而,主要的挑战是这些数据高度异构和原始,与不同数据库的结合也是一个瓶颈。当然,出于隐私考虑——数据是匿名的,很难用这种方式链接不同的数据集。然而,苹果等公司正在研究在智能手机等电子设备上匿名跟踪数据的解决方案。现在,我认为找到一种可行的方法匿名向研究人员提供个人数据是建立更好的健康问题检测系统的第一步。我相信这个问题一旦解决,我们将为个人预警系统铺平道路,这个系统结合了购物行为、日常锻炼和饮食信息等数据,或许还有个人基因组和偶尔的血液检测。
14.你参与过哪些有意思的计算生物学项目?
我的其他项目大多集中在虚拟筛选的应用上:我们一直在与实验生物学实验室合作,开发和使用各种方法来预测在蛋白质晶体结构缺失或存在的情况下被单独抑制(或活性,取决于哪个项目)的候选分子。最有趣的是预测和反馈的关系:我需要预测(在某个时间),得到实验结果,然后看看我的尝试是否正确,分析为什么我的方式比其他方式好。这些项目的另一个挑战是,研究人员需要使所有算法在计算上都是可行的——如果你有1500万个分子,选择100个候选分子有点像大海捞针。通常,在这种情况下,我们会提前执行“过滤”步骤,以使计算更容易,因为研究总是有时间限制的。我的项目要求每个人都充分发挥自己的创造力和技术,但最终我们的研究成果也需要对合作伙伴有价值。
除了虚拟筛选的应用(部分已经完成,现在正在写论文,准备出版工具包),还在参与蛋白质-配体相互作用等一般概念的研究。我们最近发现了一个有趣的蛋白质-配体相互作用的现象,我们正在寻找数据点来证实它不是一个特例。今年夏天刚结束的一个项目是关于计算蛋白质-配体结合袋的局部刚性,可以用来预测近天然蛋白质-配体的结合模式。
我认为这是一个有趣的想法,因为近自然束缚模式通常需要通过对不同的能量项求和来预测。利用刚度理论,结构自由度的计算更多的是相互作用的协同作用,而不是它们的总和。换句话说,如果特定的非共价相互作用没有从复合物中移除额外的自由度(如果复合物已经是刚性的),它就不会被“计算”到相互作用分数中。在实践中,使用局部刚性蛋白质-配体-适体似乎与其他方法或基于知识的评分方法一样好。除了是一个“独立”的评分功能之外,我认为它是一个有趣的新“信号”或“特征”,可以用来进行整体评分。
15.Octave作为机器学习语言有多高效?
我觉得Octave是一个高效的原型设计环境,也是计算机科学(学术领域)的热门语言(和MATLAB一起)。很多地方都要用到,不得不说在机器学习中确实是个不错的选择。但是,Octave/MATLAB似乎并不倾向于在现实世界中使用。不得不说Python这样的语言很好学——功能也更多(但请注意这是我个人的偏好)。总之:如果你的研究需要大量使用,或者你的实验室/团队已经重用了,Octave是个不错的选择,否则我会考虑Python和R语言。
如果你感兴趣,你可以阅读我去年写的一篇关于“语言战争”的文章:http://sebastianraschka.com/blog/2015/why-python.html
16.对于有一些机器学习知识的程序员来说,学习计算生物学的好方法是什么?
这是个好问题!计算生物学是一个广阔的领域,有许多不同的子领域和研究方向:蛋白质折叠、同源蛋白质建模、蛋白质配体对接和评分、分子动力学模拟、序列比对、基因组组装、微生物研究、进化生物学和系统发育等。
生物学的介绍可以从分子生物学和基因入手,先了解“大图”,再开始进入自己感兴趣的领域。关于生物计算的学习,我主要是看论文——这个领域变化很快,十年前的一本教材可能已经过时了。我听说像Edx和Coursera这样的网站已经提供了计算生物学和生物信息学的专业课程。我没有接触过这些课程,但我认为这也是一个很好的入门方式。有一件事我想特别分享,“应用生物信息学导论:格雷戈·卡普拉索的http://readiab.org/"”,一本免费的在线书籍。

推荐阅读