2020年十大机器学习研究进展
去年有哪些机器学习重要进展是你必须关注的?听听DeepMind研究科学家怎么说 。
2020年因为新冠疫情 , 很多人不得不在家工作和学习 , 大量人工智能学术会议也转为线上 。不过在去年我们仍然看到了很多AI技术领域的进展 。DeepMind研究科学家SebastianRuder近日帮我们对去年的机器学习社区进行了一番总结 。
首先你必须了解的是:这些重点的选择基于作者个人熟悉的领域 , 所选主题偏向于表示学习、迁移学习 , 面向自然语言处理(NLP) 。如果读者有不同的见解 , 可以留下自己的评论 。
SebastianRuder列出的2020年十大机器学习研究进展是:
大模型和高效模型
文章插图
实例判别从同一个图像的不同转换之间比较特征(Caronetal. , 2020) 。
对比学习是一种为ML模型描述相似和不同事物的任务的方法 。利用这种方法 , 可以训练机器学习模型来区分相似和不同的图像 。
最近 , 对比学习在计算机视觉和语音的自监督表征学习(vandenOord , 2018;Hénaffetal. , 2019)中越来越受欢迎 。用于视觉表征学习的新一代自监督强大方法依赖于使用实例判别任务的对比学习:将不同图像视为negativepairs , 相同图像的多个视图视为positivepairs 。最近的方法进一步改善了这种通用框架:SimCLR(Chenetal. , 2020)定义了增强型实例的对比损失;MomentumContrast(Heetal. , 2020)试图确保大量且一致的样本对集合;SwAV(Caronetal. , 2020)利用在线聚类;而BYOL仅使用positivepairs(Grilletal. , 2020) 。Chen和He(2020)进一步提出了一种与先前方法有关的更简单的表述 。
最近 , Zhaoetal.(2020)发现数据增强对于对比学习至关重要 。这可能表明为什么在数据增强不那么普遍的NLP中使用大型预训练模型进行无监督对比学习并不成功 。他们还假设 , 实例判别比计算机视觉中的有监督预训练更好的原因是:它不会试图让一个类中所有实例的特征相似 , 而是保留每个实例的信息 。在NLP中 , Guneletal.(2020)无监督的预训练涉及对成千上万个单词类型进行分类的问题不大 。在NLP中 , Guneletal.(2020)最近采用对比学习进行有监督的微调 。
语言建模中常用的one-hot标签与模型输出的logit之间的交叉熵目标存在一些局限性 , 例如在不平衡的类中泛化效果较差(Caoetal. , 2019) 。对比学习是一种可选择的补充范式 , 可以帮助缓解其中的一些问题 。
对比学习与masked语言建模相结合能够让我们学习更丰富、更鲁棒的表征 。它可以帮助解决模型异常值以及罕见的句法和语义现象带来的问题 , 这对当前的NLP模型是一个挑战 。
要评估的不只是准确率

文章插图
【2020年十大机器学习研究进展】用于探索情感分析中否定性的理解的CheckList模板和测试(Ribeiroetal. , 2020) 。
NLP中的SOTA模型已在许多任务上实现了超越人类的表现 , 但我们能否相信这样的模型可以实现真正的自然语言理解(Yogatamaetal. , 2019;BenderandKoller , 2020)?其实 , 当前的模型离这个目标还很远 。但矛盾的是 , 现有的简单性能指标无法体现这些模型的局限性 。该领域有两个关键主题:a)精选当前模型难以处理的样例;b)不只是选择准确率等简单指标 , 而是进行更细粒度的评估 。
关于前者 , 常用的方法是在数据集创建过程中使用对抗过滤(Zellersetal. , 2018) , 过滤出由当前模型正确预测的样例 。最近的研究提出了更有效的对抗过滤方法(Sakaguchietal. , 2020;LeBrasetal. , 2020)和一种迭代数据集创建处理方法(Nieetal. , 2020;Bartoloetal. , 2020) , 其中样例经过过滤 , 模型经过了多轮的重新训练 。Dynabench提供了此类不断变化的基准的子集 。
针对第二点的方法在本质上也是相似的 。该领域通常会创建minimalpairs(也称为反事实样例或对比集)(Kaushiketal. , 2020;Gardneretal. , 2020;Warstadtetal. , 2020) , 这些minimalpairs以最小的方式干扰了样例 , 并且经常更改goldlabel 。Ribeiroetal.(2020)在CheckList框架中形式化了一些基本的直觉 , 从而可以半自动地创建此类测试用例 。此外 , 基于不同的属性来描述样例可以对模型的优缺点进行更细粒度的分析(Fuetal. , 2020)
为了构建功能更强大的机器学习模型 , 我们不仅需要了解模型是否优于先前的系统 , 还需要了解它会导致哪种错误以及还有哪些问题没被反映出来 。通过提供对模型行为的细粒度诊断 , 我们可以更轻松地识别模型的缺陷并提出解决方案 。同样 , 利用细粒度的评估可以更细致地比较不同方法的优缺点 。
语言模型的现实应用问题

文章插图
模型会根据看似无害的提示 , 生成有害的结果(Gehmanetal. , 2020) 。
与2019年语言模型(LMs)分析侧重于此类模型所捕获的语法、语义和世界认知的氛围相比 , 最近一年的分析揭示了许多实际问题 。
比如经过预训练的LM容易生成「有毒」的语言(Gehmanetal. , 2020)」、泄露信息(Song&Raghunathan , 2020) 。还存在微调后易受到攻击的问题 , 以致攻击者可以操纵模型预测结果(Kuritaetal. , 2020;Wallaceetal. , 2020) , 以及容易受到模型的影响(Krishnaetal. , 2020;Carlinietal. , 2020) 。
众所周知 , 预训练模型可以捕获关于受保护属性(例如性别)的偏见(Bolukbasietal. , 2016;Websteretal. , 2020) , Sunetal. , 2019的研究给出了一份减轻性别偏见的调查 。
大公司推出的大型预训练模型往往在实际场景中会有积极的部署 , 所以我们更应该意识到这些模型存在什么偏见 , 又会产生什么有害的后果 。
随着更大模型的开发和推出 , 从一开始就将这些偏见和公平问题纳入开发过程是很重要的 。
Multilinguality

文章插图
全球标记/未标记语言数据的不均衡分布情况(Joshietal. , 2020) 。
2020年 , 多语言NLP有诸多亮点 。旨在加强非洲语种NLP研究的Masakhane机构在第五届机器翻译会议(WMT20)上发表的主题演讲 , 是去年最令人鼓舞的演讲之一 。此外 , 这一年还出现了其他语言的新通用基准 , 包括XTREME(Huetal. , 2020)、XGLUE(Liangetal. , 2020)、IndoNLU(Wilieetal. , 2020)、IndicGLUE(Kakwanietal. , 2020) 。现有的数据集也拓展到了其他语言中 , 比如:
SQuAD:XQuAD(Artetxeetal. , 2020) , MLQA(Lewisetal. , 2020) , FQuAD(d‘Hoffschmidtetal. , 2020);
NaturalQuestions:TyDiQA(Clarketal. , 2020) , MKQA(Longpreetal. , 2020);
MNLI:OCNLI(Huetal. , 2020) , FarsTail(Amirkhanietal. , 2020);
theCoNLL-09dataset:X-SRL(DazaandFrank , 2020);
theCNN/DailyMaildataset:MLSUM(Scialometal. , 2020) 。
通过HuggingFace数据集可以访问其中的大部分数据集 , 以及许多其他语言的数据 。涵盖100种语言的强大模型也就应运而生了 , 包括XML-R(Conneauetal. , 2020)、RemBERT(Chungetal. , 2020)、InfoXLM(Chietal. , 2020)等 , 具体可参见XTREME排行榜 。大量特定语言的BERT模型已经针对英语以外的语言进行了训练 , 例如AraBERT(Antounetal. , 2020)和IndoBERT(Wilieetal. , 2020) , 查看Nozzaetal. , 2020;Rustetal. , 2020的研究可以了解更多信息 。借助高效的多语言框架 , 比如AdapterHub(Pfeifferetal. , 2020)、Stanza(Qietal. , 2020)和Trankit(Nguyenetal. , 2020) , 世界上许多语种的建模和应用工作都变得轻松了许多 。
此外 , 还有两篇很有启发的研究 , 《TheStateandFateofLinguisticDiversity(Joshietal. , 2020)》和《DecolonisingSpeechandLanguageTechnology(Bird , 2020)》 。第一篇文章强调了使用英语之外语言的紧迫性 , 第二篇文章指出了不要将语言社区及数据视为商品 。
拓展到英语之外的NLP研究有很多好处 , 对人类社会能产生实实在在的影响 。考虑到不同语言中数据和模型的可用性 , 英语之外的NLP模型将大有作为 。同时 , 开发能够应对最具挑战性设置的模型并确定哪些情况会造成当前模型的基础假设失败 , 仍然是一项激动人心的工作 。
图像Transformers

文章插图
VisionTransformer的论文中 , 研究者将Transformer编码器应用于平坦图像块 。
Transformer在NLP领域取得了巨大的成功 , 但它在卷积神经网络CNN占据主导地位的计算机视觉领域却没那么成功 。2020年初的DETR(Carionetal. , 2020)将CNN用于计算图像特征 , 但后来的模型完全是无卷积的 。ImageGPT(Chenetal. , 2020)采用了GPT-2的方法 , 直接从像素进行预训练 , 其性能优于有监督的WideResNet , 后来的模型是将图像重塑为被视为「token」的补丁 。VisionTransformer(ViT , Dosovitskiyetal. , 2020)在数百万个标记好的图像上进行了训练 , 每一个图像都包含此类补丁 , 模型效果优于现有最新的CNN 。ImageProcessingTransformer(IPT , Chenetal. , 2020)在被破坏的ImageNet示例上进行对比损失预训练 , 在low-level图像任务上实现了新的SOTA 。Data-efficientimageTransformer(DeiT , Touvronetal. , 2020)以蒸馏方法在ImageNet上进行了预训练 。
有趣的是 , 研究者们发现了CNN是更好的教师 , 这一发现类似于蒸馏归纳偏置(inductivebias)应用于BERT(Kuncoroetal. , 2020) 。相比之下在语音领域 , Transformer并未直接应用于音频信号 , 而通常是将CNN等编码器的输出作为输入(Moritzetal. , 2020;Gulatietal. , 2020;Conneauetal. , 2020) 。
与CNN和RNN相比 , Transformer的归纳偏置更少 。尽管在理论上 , 它不如RNN(Weissetal. , 2018;Hahnetal. , 2020)强大 , 但如果基于充足的数据和规模 , Transformer会超越其他竞争对手的表现 。
未来 , 我们可能会看到Transformer在CV领域越来越流行 , 它们特别适用于有足够计算和数据用于无监督预训练的情况 。在小规模配置的情况下 , CNN应该仍是首选方法和基线 。
自然科学与机器学习

文章插图
基于自注意力的AlphaFold架构 。
去年 , DeepMind的AlphaFold在CASP蛋白质折叠挑战赛中实现了突破性的表现 , 除此之外 , 将机器学习应用于自然科学还有一些显著的进展 。MetNet(S?nderbyetal. , 2020)证明机器学习在降水预测方面优于数值天气预报;Lample和Charton(2020)采用神经网络求解微分方程 , 比商用计算机系统效果更好;Bellemareetal.(2020)使用强化学习为平流层的热气球导航 。
此外 , ML现已被广泛应用于COVID-19 , 例如Kapoor等人利用ML预测COVID-19的传播 , 并预测与COVID-19相关的结构 , Anastasopoulos等人将相关数据翻译成35种不同的语言 , Lee等人的研究可以实时回答有关COVID-19的问题 。
有关COVID-19相关的NLP应用程序的概述 , 请参阅第一期COVID-19NLP研讨会的会议记录:《Proceedingsofthe1stWorkshoponNLPforCOVID-19(Part2)atEMNLP2020》 。
自然科学可以说是ML最具影响力的应用领域 。它的改进涉及到生活的许多方面 , 可以对世界产生深远的影响 。随着蛋白质折叠等核心领域的进展 , ML在自然科学中的应用速度只会加快 。期待更多促进世界进步的研究出现 。
强化学习

文章插图
与最先进的智能体相比 , Agent57和MuZero整个训练过程中在雅达利游戏中的表现优于人类基准(Badiaetal. , 2020) 。
单个深度强化学习智能体Agent57(Badiaetal. , 2020)首次在57款Atari游戏上超过人类 , 这也是深度强化学习领域中的一个长期基准 。智能体的多功能性来自于神经网络 , 该网络允许在探索性策略和利用性策略之间切换 。
强化学习在游戏方面的另一个里程碑是Schrittwieser等人开发的MuZero , 它能预测环境各个方面 , 而环境对精确的规划非常重要 。在没有任何游戏动态知识的情况下 , MuZero在雅达利上达到了SOTA性能 , 在围棋、国际象棋和日本象棋上表现也很出色 。
最后是MunchausenRL智能体(Vieillardetal. , 2020) , 其通过一个简单的、理论上成立的修改 , 提高了SOTA水平 。
强化学习算法有许多实际意义(Bellemareetal. , 2020) 。研究人员对这一领域的基本算法进行改进 , 通过更好的规划、环境建模和行动预测产生很大的实际影响 。
随着经典基准(如Atari)的基本解决 , 研究人员可能会寻找更具挑战性的设置来测试他们的算法 , 如推广到外分布任务、提高样本效率、多任务学习等 。
原文标题:2020年这10大ML、NLP研究最具影响力:为什么?接下来如何发展?
文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处 。
责任编辑:haq
.dfma {position: relative;width: 1000px;margin: 0 auto;}.dfma a::after {position: absolute;left: 0;bottom: 0;width: 30px;line-height: 1.4;text-align: center;background-color: rgba(0, 0, 0, .5);color: #fff;font-size: 12px;content: "广告";}.dfma img {display: block;}

文章插图
推荐阅读
- 2020年盱眙龙虾节什么时候?
- 2021高铁票退票要手续费吗 2020年高铁票退票
- 2021年比2020年还吓人 2021年全球死一半人
- 2020年北京全市累计开通5G基站5.3万个
- 乌云下种因时:细看vivo的平凡之路
- 预计2020年中国存储芯片市场规模将突破3000亿元
- 机器视觉需求飙升或成蓝海市场 机器视觉行业迎来快速增长期
- 2020年中国GDP首超100万亿元
- 2020年禁渔期是几月到几月?
- 2020年浙江禁渔期的时间?
