sebastian Quora问答 |《Python机器学习》作者Sebastian Raschka:从Python的学习经验到计算生物学的最前沿( 四 )


如果这是一个有监督的学习任务,我可以访问这些标签/目标变量吗?如果没有,我能从别的地方得到吗?有足够的样品吗?在一个机器学习算法中,我可以用合适的格式(也许是表格)表达这些输入数据吗?
还有,如果我有一个简单的一维或者二维的数据,可以很容易的可视化或者手绘,用机器学习可能有点过了。
例如,我可能不适合预测分子量的回归模型,因为它是一个输入结构。例如,给定一个乙酰水杨酸分子,其分子结构为:

sebastian Quora问答 |《Python机器学习》作者Sebastian Raschka:从Python的学习经验到计算生物学的最前沿


文章图片

我们得到了含有9个碳原子、8个氢原子和4个氧原子的化合物。
C ~ 12克/摩尔
H ~ 1 g/mol
O ~ 16克/摩尔
所以我们很容易计算出它的重量。
重要的是思考一些我们想要解决的问题,无论是可以轻松手动推下规则,还是需要机器学习。一般来说,机器学习是人工下推规则和假设或近似函数的工程自动化。另一个例子是乔尔·格鲁斯(Joel Grus)写的:Fizz-Buzz in Tensor Flow(http://joelgrus . com/2016/05/23/Fizz-Buzz-in-Tensor Flow/)。
12.从分子生物学学士到Python机器学习,你对转行数据科学有什么想法?
不得不承认,我在学习分子生物学的时候,真正感兴趣的是统计学和数据分析,而不是那些“实际”的实验室工作。我本科学习的大部分时间都花在了一篇老式的无名论文上。对了,这篇论文,我用实验数据在结论里画图表花了一两天,但是做实验花了我一个多月。所以我并没有那么反感分子生物学,但我很快发现,湿实验室并不是我的归宿:我把它当成了“必要的恶”——项目中繁琐的数据收集部分。希望实验室的同事在我说完话后不要生我的气。我非常感谢他们的辛勤工作(笑)。
虽然我的博士是计算机科学领域的,但是我觉得我对数据科学和机器学习的热情来自于研究生期间的统计识别这门课程。学习这些技巧很有意思,效果立竿见影。我很快就能在生物问题中使用它们。那时候不得不说我对算法和技术有点太感兴趣了,生物排第二。今天最感兴趣的是一般领域的解题过程,而生物恰好是一门数据量很大的学科,恰好有很多问题需要解决。
13.你认为机器学习和数据科学会对医学领域产生什么影响?
我的工作不涉及医学领域,但是我遇到了几个工作在机器学习和医学领域交叉的人。比如我们学院的G.Mias实验室,专注于从各种在线数据库和数据源中收集基础数据,预测患特定疾病的风险。《为什么》一书的作者萨曼莎·克莱因伯格正在进行非同寻常的研究。她为医疗行业应用和开发了各种统计建模技术。
看生物医学文献,我认为描述特定蛋白质或基因功能的经典方法是孤立地看待它们,并将其分类为特定的表型。
这种自下而上的方法当然是医学领域的关键。然而,基因或蛋白质只是一个更大、更复杂系统的一小部分。我相信收集实验和设备的信息可以为我们理解这个复杂的系统和医学进步提供有用的信息。特别是,我想监测不同风险因素随时间的变化。如果能有效地做到这一点,我相信医学界将从中受益。我想说的是,我们的目标是尽早了解健康风险,最好是在这些风险变成真正的问题之前。例如,在一个人真正患有糖尿病之前,跟踪有糖尿病风险的因素。
开发更好的糖尿病治疗方法很重要,但是如果我们更好地理解外部环境的哪种组合会增加糖尿病的风险,我们就可以帮助许多人避免这种疾病。我觉得这方面不需要做什么研究,只需要整合家族史、基因表达水平、年龄、购物行为、运动等信息即可。,这可以帮助我们尽早发现患病的风险。我们收集的越来越多的数据在一定程度上可以匿名学习,因为它可以更容易地添加到机器学习算法中,建立预测模型。

推荐阅读