深入探讨人工智能的实际应用

导读：本文通过案例分门别类地深入探讨人工智能的实际应用。案例甚多，此处所列举的仅是九牛一毛。本该按行业或业务对这些案例进行分类，但相反我选择按在行业或业务中最可能应用的顺序来分类。
本文将使用“算法”一词，以高度简化的方式来描述单个算法、模型或者使用多种算法的软件。在每个类别中，逐一讨论数据输入的类型、作为黑箱的算法以及输出（为了简便易行，即使真实算法不是黑箱也暂且把它当成黑箱）。
因为这是高层次的概述，所以我鼓励你深入研究感兴趣的具体应用，搞清楚它们究竟是如何应用于行业或者业务活动的。目前也有很多资源可供使用，以学习所涉及的技术细节和具体算法。
01 预测分析
预测是预测分析或者预测建模的同义词，这是根据有标签，以及有时甚至无标签的输入数据来判断输出数据的过程。在机器学习和人工智能中，预测分析可以进一步细分为回归和分类。
下面将对使用有标签数据（有监督）进行预测的两个子类进行讨论。
1. 回归
图1-1展示了在回归方法中输入有标签数据，经预测模型处理，然后从连续数列中生成数值的过程（例如股市的闭市价）。

文章插图
▲图6-2：NLG
应用包括：
根据句子和文档自动产生文本概述
https://arxiv.org/abs/1602.06023
https://arxiv.org/abs/1603.07252
简要回顾（例如新闻和体育）
关于图片的故事
业务分析报告概要
招聘人员参与医院研究
自然语言形式的患者医院账单
梦幻足球选秀总结和每周比赛回顾
房产描述和房地产市场报告
与公司收入报告相关的新闻发布
安德烈·卡帕西创建的模型可以自动产生维基百科文章、婴儿姓名、数学论文、计算机代码和莎士比亚的模型。其他的应用包括生成手写文本甚至创作笑话。
3. NLU
最后，NLU以语言为输入（文本、语音或手写），经过NLU算法的处理，产生可以被理解的语言作为输出，如图6-3所示。所产生的可理解语言可以用来采取行动、生成响应、回答问题、进行对话等。

文章插图
▲图6-3：NLU
“理解”一词可以非常深奥且具有哲学性质，并会涉及领悟的概念，注意到这一点非常重要。理解所指的能力，往往不仅是领悟信息（与死记硬背相反），而且是把理解的信息与现存知识整合，并以此作为不断增长的知识基础。
缺乏与人类相似的语言理解和领悟是今天基于自然语言的人工智能应用的一大缺憾，其根源在于让机器获取与人类相似的语言理解能力难于上青天。还记得前面关于人工智能现状和人工智能难题的讨论吗？这就是一个明证。
在不进行全面哲学讨论的情况下，让我们仅用术语“理解”来表示算法（重申，大大简化）能够对输入语言做更多的工作，而不仅是解析并执行简单的任务，如文本分析。NLU要解决的问题显然比NLP和NLG（普通人工智能问题）难得多，而且NLU是实现通用人工智能（AGI）的主要基本组成。
目前的NLU日臻完善，已经有了包括个人虚拟助理、聊天机器人、客户成功（支持与服务）代理、销售代理等在内的应用。这些应用通常包括某些形式的手写内容或语音对话，经常围绕着信息搜集、问题解答或者某些协助性工具。
个人助理的具体应用案例包括诸如亚马逊的Alexa、苹果的Siri、谷歌的Assistant以及Nuance的Nina 。聊天机器人的应用案例包括润滑油专家、工作面试、学生贷款顾问和商业保险专家。这是人工智能研究非常活跃和有潜在发展空间的领域，绝对值得关注。
07 时间序列和基于序列的数据
多数情况下，数据都是按照序列采集的，因此数据的序列极为重要而且由特定索引所确定。
最为常见的数据序列索引是时间，按时间排序的数据被称为时间序列数据。每天交易时段股票的价格波动、DNA序列、物联网传感器数据，以及诸如风向等科学现象，都是时间序列的好例子。
时间序列分析和建模可用于学习、判断和预测基于时间的事件，包括趋势、季节变动、循环和噪声。
对某些特定应用，字母和单词的序列也是有效的序列数据，这些序列被打上不同的标签，诸如n-grams、skip-grams、句子、段落，甚至语言本身，其中语言是以语音、文字或者电子的方式来表达的。另外，音频和视频也是序列数据。
应用包括：
预测（回归与分类）
异常检测
预测货币的未来兑换率
健康趋势的实时追踪
市场预测
天气预报
基于序列的推荐
情感分析
DNA测序
文本生成
序列到序列的预测（如机器翻译）

文章插图
08 信息搜索、提取、排序和评分
许多强大的人工智能应用都围绕着信息的搜索、提取和排序（评分）。这特别适用于非结构化和半结构化数据，例如文本文档、网页、图像和视频。
可以使用这类数据（有时候辅以结构化数据）来提取信息、提供搜索或优化处理推荐，以及按照相关性、重要性或优先级来对条目进行排序或评分。这组技术大多都与个性化有关，因为搜索结果和其他条目可以按照针对某个用户或群体的相关性的大小排列或排序。
目前，有许多搜索任务都是通过键盘输入或者语音提供给诸如谷歌这样的搜索引擎，该引擎使用谷歌独有的人工智能搜索算法。电子商务应用也使用他们自己的引擎来搜索产品，搜索过程可以由文本、声音（语音）及视觉输入驱动。
文本搜索包括谷歌搜索、微软的Bing，以及分布式、透明和社区驱动的搜索。
基于声音和图像的搜索应用包括：
衣服和时装搜索
歌曲和艺术家搜索
Pinterest镜头搜索
图像和视频搜索
字体搜索
视频搜索基于图像内容进行搜索。早就有购物应用采取这种方式。用户把拍摄的照片提交给视频搜索引擎。接着用照片产生相似性搜索结果，诸如衣服。有些图像引擎也能以视觉方式展示相似的其他产品和推荐。
除了分类技术以外，还有排序和评分技术，包括下述这些应用：
销售线索评分
信息与文档检索（例如网页搜索）
机器翻译
致病基因搜索与发现
测定蛋白质的顺序结构
09 强化学习
强化学习（RL）与这里迄今描述过的人工智能技术迥然不同（简单回想一下前面提到的人类学习的方法）。基本的想法是有一个代理在虚拟环境中行动以获得积极的回报。每个动作都会引起环境状态的变化，而且每个动作都由称为策略的模型来决定。策略尝试确定在给定状态下要采取的最佳操作。
如果暂时不理解请别担心；我会举个例子，希望能解释得更清楚。图9很形象地展示了强化学习。

文章插图
▲图9：强化学习
你可以考虑以游戏《吃豆女士》（Ms. Pac-Man，为何不是Ms. Pac-Woman?）为例。吃豆女士的目标是吃掉屏幕上所有的点，但是更大的目标是从可能吃掉的点中获得最多的分数。为什么得分最多才是真正的目标？或者说为什么要玩这个游戏？
首先，得分越多，能得到的自由生命就越长，自由生命越长就能玩得越久，就可以继续积累更多的分数。其次，如果能完成比赛或者创造世界纪录，就能获得正式的“吹牛权”，谁不希望呢？
在这种情况下，得分是奖励，吃豆女士是代理，环境是屏幕，参与其中的人（玩家）是通过操纵游戏控制杆决定采取行动的策略。
当然环境是有状态的。有一个普通的不易察觉的情况，那就是在吃豆女士吃屏幕上的点和水果时，必须躲开追赶她的幽灵，还有一个不可战胜的情况，那就是当吃豆女士吃了无敌药丸（我不知道它到底叫什么）后，她就可以吃掉幽灵从而得到很多额外的分。
决定无敌与非无敌的是环境状态的变化，也是代理人在环境中能力的变化。
值得一提的是，在人们玩《吃豆女士》游戏的过程中，有时会受完成屏幕目标的驱使，尽可能打通更多关卡而不是得最多分。在这种情况下，人们只会使用无敌状态来加速，吃尽可能多的不受阻碍的点，可能不会通过吃幽灵来得到最多分。
假设你有强化学习应用，目标是得最多分。在这种情况下，应用将尝试学习如何做到这一点，也就是吃尽可能多的幽灵和水果。
还有一件事要提，得分是一种积极的回报。碰到幽灵丧命是一种消极的回报。随着时间的推移，强化应用应该尝试最大化得分和最小化生命损失。尽管这个例子是在游戏场景中构建的，但是我们可以通过许多其他的方式来使用强化学习。
应用包括：
击败围棋世界冠军
找到神经网络的最佳配置
机器人技术
优化药物剂量
优化交通信号控制
优化化学反应
自动驾驶

文章插图
10 混合、自动化与其他
实际应用的最后一节指出了一些应用，因为涉及多种组合技术，或者不适合已经讨论过的任何类别，所以将它们归类为混合或杂项。
应用案例包括：
自动驾驶汽车和车队以及自动驾驶航天飞机
实时飞行路线预测和空中交通优化
无人驾驶赛车
仓库物流和拣配自动化
狗和类人机器人
机器人类人的巧手
珊瑚礁监测水母机器人
医院病患护理工作自动化
疾病暴发预测
减少冷却费用
天气预报
自动化会议协调
预测维护
与物联网相关的智能系统
人工智能开发的另一个真正有趣的领域是生成性应用，基本上指能从特定类型输入为给定应用生成某些东西的人工智能。包括下面这些例子：
根据文本生成图像
生成图像和图像区域描述
生成星系和火山的图像
根据草图生成图像
根据歌曲的特点生成音乐
生成多样化的声音和语音
合成唱歌
根据设计模型生成软件代码
根据文本生成视频
其他的应用包括风格转换（例如普通图像转换，使梵高或毕加索风格的“艺术”再现）。还有一种被称为超分辨率成像技术，通过生成缺失的三维图像数据，将二维图像转换为三维图像。最后，图像自动着色是另一个有趣的人工智能应用。
【深入探讨人工智能的实际应用】 责任编辑：YYX