英特尔的Loihi芯片克服在构建复杂的智能机器的过程中所面临的瓶颈

机器到底可以有多智能?在智能化的这条路上,我们已经走过了漫长的几十年,Siri和Alexa语音助手、图像识别应用、甚至推荐引擎,其发展历程告诉我们,前路漫漫,其修远兮 。人类已经可以利用强大的计算机性能以及大量良好标记的数据来执行医疗诊断这样的深度学习任务,这是惊人的进步 。
但是,我们还需要什么?
人类对AI的追求远远超越了数据科学的范畴 。当健康出现异常时,我们希望可穿戴生物传感器系统能够立即发出警告;在最恶劣的驾驶条件下,我们希望自动驾驶汽车能够实时做出反应;我们还希望机器人能以最小的角度转向 。怎样才能实现这些呢?
我们的移动设备现在看起来似乎勉强能够理解我们,但实际上并不能 。他们只是简单地将我们的声音转换和解码成文字,然后发出请求,进而转化为动作或答案 。这只是一个计算密集的过程 。
2013年曾有一个预测:人们每天花3分钟时间使用语音识别进行语音搜索,将使数据中心的计算需求增加一倍 。利用传统CPU实现该功能非常昂贵,因此,谷歌的Norman Jouppi和他的同事共同开发了张量处理器(TPU),该处理器重点优化矩阵乘法硬件,有望将神经网络查询的能效提高95% 。
这些处理器在服务器应用中发挥了很大的作用,但由于这种方法是将所有内存和处理集中在数据中心,因而对通信基础架构极其依赖,同时还需要进行信息交流,其中很多是无关信息,浪费了时间和能量 。
随着边缘计算时代的来临,如何才能满足移动和非联网独立设备应用对速度、功率、面积和重量的要求呢?
选择性复制生物学
机器智能所采用的神经网络是受生物学的启发而建立起来的 。因此,神经拟态工程师尽量模仿同样的生物机理,以便创建的硬件能够更好地运行神经网络 。这种方法为工程师们提供了多种选择 。

英特尔的Loihi芯片克服在构建复杂的智能机器的过程中所面临的瓶颈
文章插图
神经拟态工程学的目标是从生物学中汲取尽可能多的教训,以实现跟大脑一样的低功耗和强大功能 。在实现神经处理、存储和通信时,工程师的设计选择
将决定人工大脑执行任务的效率 。
一种策略是不再将芯片架构划分为处理器和存储器,而是将其分解为同时执行两种功能的神经元 。
其次,优先选择大型多对多神经元连接方式,因为它使神经元网络的功能更强 。采用能保持输入信号(例如图像)几何信息的传感器-处理器管道会有所帮助,因为它们在处理过程中允许相邻神经元进行有效的互动,如同人类的视网膜一样 。将信号值保持在模拟域中也有好处,这样所有内容都可以同时处理,而不用分解为不同比特位的复杂动作 。
最后,将通信时间与神经行为而非任意的时钟关联起来,这意味着信号本身包含更多的信息:那些同时到达的类脑尖峰信号通常与同一事件相关 。
这就是为什么神经拟态工程或计算这个术语有点难懂的原因 。这个术语是加州理工学院教授Carver Mead于20世纪80年代后期创造的 。在随后的几十年中,Mead及其他人的项目尤其重视模拟计算带来的好处 。例如在一个复制了一组蝇复眼运动检测器电路的系统中,多个接收器检测到模拟信号,然后通过近邻互动传播到侧面 。这种系统具有极高的速率和极低的功耗(90年代后期Reid Harrison证实其功率仅为几微瓦),充分显示出同时保持信号几何信息和模拟处理能力的好处 。
“纯”神经拟态系统的另一个特征是频繁使用地址-事件表达(AER) 。这种通信系统具有传统网络的许多优点,同时还提供多对多通信,保持了尖峰时序 。
使用AER,一个神经元会根据其学习、行为和刚收到的输入信息,在需要时随时发出一个尖峰信号 。它将信号传输给网络中的所有其他神经元,但只有应该接收尖峰信号的神经元才可以接收,其他神经元会忽略该信号 。这种网络之所以与众不同,是因为两个尖峰信号之间相隔时间较长,因此,只有差不多同时到达的来自不同神经元的尖峰信号才被视为相关 。
每个神经元都使用尖峰进行交流,无需与成百上千的其他神经元直接相连 。地址-事件表达是保持尖峰时序的一种方法 。只要出现尖峰的可能性足够低,使同时到达编码器的尖峰之间不存在竞争,这种方法就有效 。
许多神经拟态系统都使用AER,特别是法国的Prophesee公司和瑞士的aiCTX(AI cortex)公司,他们专注于研究感应处理 。这种方法既灵巧又实用,其优点在于神经元之间不需要进行硬连接,输入信号信息可以简单地实时通过处理器,无关信息将被丢弃,剩下的信息将在神经管道中进一步处理 。
权衡利弊与取舍
虽然“典型的”神经拟态技术极具吸引力,但也有一些缺点,比如,要提高功率和速度就很不容易 。数字电子器件比模拟器件更耗电,因为数字器件在不停地纠错:强行将信号变为1或0 。使用模拟电路则不会出现这种情况,所以因温度的变化、器件的不同以及其他因素引起的误差和漂移不会消失 。产生的结果可能不是错误,而是偏移或损坏了 。
电子器件的制造过程也远说不上完美,这让事情变得更加糟糕 。庆幸的是,电路是可以测试的,因此对于数字技术而言,问题没那么严重 。如果数字器件不能通过测试,可以将它们扔掉 。
【英特尔的Loihi芯片克服在构建复杂的智能机器的过程中所面临的瓶颈】 而在一个模拟系统中表现完美的一组神经权重,在另一个系统中却可能表现很糟 。如果你想集中学习,然后将这一行为复制到许多不同的机器中,需要付出一定的代价——可能是可靠性降低,更可能是必须采用冗余设计来克服这些问题 。
幸运的是,这一障碍并不是无法逾越的,但在我们研发忆阻器等新兴技术时还是值得注意的 。忆阻器这种精巧的器件是可以嵌入核心神经电路的存储器,因此可用于神经网络 。其优点是能使模拟神经元变得更小,功耗更低 。
另一种方法是,在遵循自然构造(尤其是分布式)和相互连接的神经元来实现结构化设计时,可以最小化甚至取消模拟电路,根据实际需要决定神经拟态的程度 。
神经拟态和非神经拟态界线模糊,需要工程师根据具体的应用和成功的标准来进行权衡 。如果重复性很重要而且无需考虑功率,则应选择较少神经拟态的方案 。如果速度、功率、面积和重量是主要考量因素,而且更易接受模糊行为,则神经拟态计算更加可行 。
例如,IBM的TrueNorth虽然是数字器件,但功耗却非常低,因为逻辑器件可以采用纳米工艺来制造 。而在如此小的尺寸下,很难实现模拟电路 。
英特尔的Loihi芯片离模拟更近一步,因为它是异步的:每个神经元都可以按自己的速率触发 。同步则是通过一组相邻神经元的交互产生的,只有在其他神经元完成一个时间步长或时钟驱动操作之后,同步过程才开始 。
良性循环
到这里,模拟神经拟态系统似乎走进了死胡同,但事实并非如此 。Loihi和TrueNorth都是通用芯片,专用于通用的学习任务 。
但生物学并不是通用的,而是根据具体的任务有针对性地优化 。短期之内,速度、功率、面积和重量确实重要,工程师也想对其进行优化 。他们最终将选择最高效的设计,哪怕芯片价格更高 。
但如果某些神经拟态计算的利基应用获得成功(诸如关键词检测或感知处理),则可能形成投资、开发、创新和优化的良性循环 。最终可能会产生一个具有其自身摩尔定律的新兴行业,一个与认知和智能任务的需求密切相关的行业 。
因此,我们可以合理地推断:神经拟态处理器最终将克服我们在构建复杂的智能机器的过程中所面临的瓶颈 。其目标包括能分析及识别对象和所处环境、并即时适应不同类型传感数据的机器(类似于人脑) 。
为了实现这一目标,需要更深入地了解生物过程,使神经拟态计算成为现实 。
责任编辑:pj

    推荐阅读