sebastian Quora问答 |《Python机器学习》作者Sebastian Raschka:从Python的学习经验到计算生物学的最前沿

选自Quora
机心编译
参加人员:杜夏德、李泽南、蒋思远、吴攀
昨天Machine Heart编译的一篇文章(见:)显示Python已经逐渐成为最流行的机器学习语言。在今天的Quora话题上,《Python机器学习》的作者Sebastian Raschka回答了很多关于Python、机器学习和计算生物学的问题。我们来看看机器学习之星(他被列为Github最具影响力的数据科学家之一)是如何完成从生物学到计算机的传奇式跨界体验的。
1.你用过哪些工具来提高工作效率?
从更高的层面来说,我把计算编程语言和算法作为最重要的生产工具,可以处理各种问题。但是从软件应用方面,我喜欢Atom Editor(我还是用VIM远程工作)。每天我都需要写很多不同类型的文件:Python脚本,。cpp文件,HTML文件,Markdown,。tex,纯文本文件,蛋白质结构文件等等。Atom Editor支持跨平台(macOS和Linux),插件系统丰富。自从有了VIM,我就渐渐习惯了用这个小玩意。当然,我的大部分数据分析工作都是在Jupyter笔记本上完成的。我不会用Jupyter来“开发”代码,但对我来说,它给我提供了一个记录研究轨迹的环境,就像一个“笔记本”,把一切都集中在一个地方:执行代码、不同的注释和注释、内联图、LaTeX方程,不仅节省了时间,也省去了我在回顾项目、写报告赶截止日期时的救命武器,哈哈
对了,我差点忘了“git”(还有GitHub)和一个功能强大的笔记应用颤颤(只在Mac上有)。笔记应用太多了,我只喜欢箭袋,可以输出各种格式的数据。有了它,你永远不会觉得自己会陷入某个特定的程序或格式。
2.对于一个有点忙乱的新机器学习/数据科学家,你有什么建议?
我觉得可用资源太多,有利也有弊。好的一点是,我们有很多可选的工具和信息资源,但是为了更好的利用它们,做出“选择”,保持“关注”真的很重要。
我不想说很多资源是“多余的”,因为“多余”这个词用在这里有点负面。但是市面上有很多看似不同的书籍、工具、教程,内容几乎都是一样的,可能在范围、风格上也有一些不同。
所以,不想贪。我们总是被长长的阅读清单拖累。更重要的是想清楚个人目标(“解决X问题需要学习什么技能?”“我真的要学这个流行的X工具而不是Y工具吗?」)。材料和工具太多,我们需要更仔细地选择。当然,有时候我们会觉得自己是不是错过了什么,但我觉得习惯了这种感觉会帮助你专注于某件事,稳步前进。
比如我觉得《机器学习导论》一本书就够了,没有必要每本都看,除非你真的觉得内容不全,需要补充。正如凯茜·奥尼尔和雷切尔·舒特解释的那样,没有“完美”的数据科学家,因为没有时间去了解一切。每个人都可以掌握自己的一套技能,擅长某个领域。
我觉得什么都知道不一定是坏事。因为(如下图)我们可以通过团队合作弥补自己的不足。

sebastian Quora问答 |《Python机器学习》作者Sebastian Raschka:从Python的学习经验到计算生物学的最前沿


文章图片

3.2016年机器学习领域发生的什么事让你最激动?
我对如何将卷积神经网络和循环神经网络等解决具体问题的技术应用于图像识别和神经语言处理之外的其他问题极其感兴趣。我认为应用这些技术的关键挑战之一是找到合适的“表示”(除了有足够的数据)。下面举个例子(老的)。
鲁西、亚历山德罗、吉安卢卡·波拉德里和皮埃尔·巴尔迪。化学信息学中的深度架构和深度学习:药物分子水溶性的预测化学信息与建模杂志53.7 (2013): 1563-1575。
研究人员使用有向无环图(通常,结构是无向循环图)中呈现的分子作为递归神经网络的输入来预测这些分子的水溶性。

推荐阅读