随着边缘计算和AI的兴起,FPGA回归初心本色

无处不在的移动设备和遍在的连接已使世界"沉浸"在无线连接的汪洋大海——从不断增长的地面和非地面蜂窝基础设施 , 以及其所需的支持性光纤和无线回传网络 , 一直到通过最新开发的协议和SoC、将数十亿个传感器的数据发送到云端的大规模物联网生态系统 。
预计在2025年以前 , 全球数据量(datasphere)每年将达到175ZB 。而到2030年以前 , 相关连接设备的数量预计将达到500亿部(台) 。但是 , 传统的分布式感测加云端集中处理数据的方案在安全性、功耗管理和延迟(端到端)方面都存在严重制限 。5G标准中的超可靠低延迟通信 , 要求端对端(E2E)延迟不得高于数十毫秒 。这就导致了将数据处理推到边缘端、避免将计算(和存储)资源进行汇聚 , 以减少在上下行链路的传输中产生的巨大开销 。这么做 , 也同时提升了网络的敏捷性和可扩展性 。
机器学习(ML)和人工智能深度神经网络(DNN)的发展 , 为推动边缘端的这一洞察视角带来了希望 。但这些方案具有巨大的计算负荷 , 是传统软件和嵌入式处理器方法无法满足的 。此外 , 随着工艺制程的推进 , 高昂的超专业化专用IC(ASIC)的开发和生产成本 , 是边缘设备无法承受的 。而且 ,  ASIC不具可重构性(reconfigurability) , 因而严重限制了任何潜在的系统升级可能 。对于新一代边缘应用所需要的逻辑容量来说 , 传统的FPGA方案通常都过于昂贵和耗电 。
边缘计算的细分市场要求设备具有极低的功耗、紧凑的外形尺寸、面对数据变化的敏捷响应、以及借助远程升级能力紧随AI的演进——所有这些都要以合理的价格实现 。实际上 , 这是FPGA的天然优势 , 在灵活、硬件可定制的平台上加速计算密集型任务方面 , FPGA是天生王者 。但是 , 许多现成的FPGA都是面向数据中心应用的 , 而在数据中心整体功耗与成本核算里 , 是完全可以承受FPGA的那点"奢华"的 。幸运的是 , 有一款解决方案:借助易灵思的 钛金系列FPGA系列 , 其先进的Quantum计算架构可直面近端数据(near-data)计算的需求 , 可灵活配置多达一百万个逻辑单元(LE) , 并且无论应用如何 , 都可轻松布线 , 实现超高的资源利用率 。

随着边缘计算和AI的兴起,FPGA回归初心本色

文章插图
边缘数据处理的刚需就连接性而言 , 过去十年或多或少地致力于以下三件事:将世界用无线连接起来;提高无线连接的强度和完整性;并确保一切可连(从人到物) 的、都以某种方式连接起来 。本质上讲 , 这是通过——下一代5G部署(强化基础蜂窝基础架构并开发更新的技术以优化数据吞吐量、容量、覆盖范围和延迟要求)以及物联网革命(其中物理目标配备了感知功能和/或标签)——实现的 。这些技术发展已经产生了深远的社会影响 , 无线连接已成为日常生活中不可或缺的一部分 。从家用电器到复杂的工业机械 , 使用传感器和执行器进行远程监视、跟踪甚至控制相关对象的能力几乎已成为了基本必须的能力 。但是 , 设备密度的巨大提升也导致了某些非常明显的瓶颈 。
以云为中心的物联网从公共/私有云的物联网节点中提取、累积和处理大量传感器数据 , 从而导致显著的延迟 。回传访问的各种拓扑结构——从边缘设备到网关 , 再通过光纤或无线连接回到云——引入了三个主要瓶颈 , 它们是:
  • 延迟
  • 功耗预算
  • 成本效益
传统物联网通常由严格控制功耗的终端设备定义 , 这些终端设备通过星型或网状拓扑以低到中等的吞吐量向互联网连接的网关发送少量有效载荷 。这些多级架构无法满足从公共安全、医疗到工业自动化等许多时间敏感型的关键应用的低延迟要求 。那些为低延迟、中等吞吐量、与时间同步的连接所定义的协议 , 例如WirelessHART、ISA 100.11a、IEEE802.11ac和LTE-M , 其直接访问网关的往返延迟 , 可严苛到只允许有10毫秒;但是 , 典型的延迟却要几百毫秒 。1这只是在IoT领域内——如果我们将重点转移到移动蜂窝网络 , 基于5G的高压配电网络中允许的最小E2E延迟则为5毫秒 ;对于离散自动化应用 , 会长一些、为10毫秒 。2但是 , 硕果累累的先进制造技术利用了基于以太网的硬连线(如 , EtherNet/IP、Profinet IO、Ethercat等)或基于现场总线(如 , Profibus、Foundation Fieldbus , CAN等)的技术 , 这些时间敏感的组网技术必须要可靠地实现亚毫秒级的循环时间、亚微秒级的延迟以及极低的抖动(工厂运行要求) 。3这些应用从感知到执行的闭环时间要求小于1 微秒 , 最大传输误码率率(transaction error rate)小于10–9 , 这是传统无线网络难以匹敌的指标 。
无线连接需要异步或同步通信 。为进行可靠的数据传输 , 传输必须有严格的时序安排 。但这会消费不菲的功耗——理想的休眠或低功耗模式可延长电池续航时间 , 但设备无法在这样的模式下运行 。此外 , 以智能地部署传感器节点 , 再通过网关和/或多级传输将数据带到云端 , 不仅会降低安全性、而且会增加硬件成本 。可靠的数据传输是5G后(6G及更高)的移动通信时代的主要目标 , 而数据服务提供商大量收集用户信息的行为经常导致数据泄漏事件 。4通过以去中心化的方式执行计算密集型任务 , 就可以实现数据的完全匿名化和不可追溯性 。
边缘设备智能化的基本要求将计算基础架构从数据中心扩展到边缘这一主张 , 得到了越来越广泛的共识 。诸如联邦学习之类的概念 , 通过共享的预测模型进行协作学习这种方式 , 将标准集中式机器学习(ML)方法从数据中心转移到手机——在将数据存储到云的需求中 , 消解了对可实现ML能力的要求 。5而各种高级深度神经网络(DNN) , 每天都在发展、以更好地赋能基于边缘的处理功能 。成功地将智能带到边缘设备也带来了与传统的AI不同的商机——例如:个性化购物 , 基于AI的助手;或在制造设施中进行预测分析 。边缘/雾计算的应用 , 比如:车辆的自动驾驶;需要复杂反馈机制的机器人技术的远程控制;甚至是使用ML、可更好地管理可再生能源的智能电网终端设备;以及在电网中对本地电能使用进行预测分析 。对于此类应用 , 成功实施AI的主要决定因素包括:
  • 成本效益
  • 低功耗
  • 可重构性/灵活性
  • 尺寸
IoT /边缘节点上流行AI芯片方案的比较AI芯片方案市场一直在持续增长 ,  2020年的市场规模为76亿美元 , 到2026年有望增长至578亿美元 。在各超专业方案之间 , 有着不同的6先进AI硬件 , 例如:
  • 高度定制的ASIC和SoC
  • 可编程FPGA方案
  • 通用GPU和CPU
通用GPU和CPU通常遵循冯·诺依曼(von Neumann)架构 , 其中指令提取不能与数据操作同时发生 , 这样 , 指令只能被顺序执行 。在矢量CPU和多核GPU等多处理器方案中 , 在某种程度上绕过了这种顺序性 , 但却需要更多的跨核数据共享而增加了延迟 。这种由软件管理的并行机制必须在各处理单元之间最佳地分配工作量 , 否则可能会导致计算负载和通信不平衡——这种特性很难支撑自定义数据类型和特定的硬件优化 。就延迟、功耗、并行处理和灵活/可重构性的效率而言 , FPGA本质上优于GPU 。首先 ,  CPU和GPU必须以特定方式(如 , SIMD、SIMT执行模型)处理数据 , 但FPGA和ASIC本质上直接在硬件中实现软件算法 , 逻辑单元可以简单地完成软件指令 。此外 , 就完成相同质量的工作而言 ,  FPGA功耗更低、可重构性更好——与硬件已固化的ASIC、SoC、GPU和CPU相比 , 人们可以在硬件层级来更改数据流的性质 。
就流行的AI芯片方案而言 , ASIC领先 , FPGA随后 。但是 , 就边缘智能计算的主要关注点而言 , ASIC相形见绌 。对于成本而言尤其如此:IoT的部署数量 , 可能在数十个到数十万个节点之间 。众所周知 , 打造一款ASIC殊非易事 , 需要数年时间 , 而仅生产制造一项就需要数千万美元的巨额资本支出——通常 , 只有数百万至数十亿片的批量 , 此符合开发ASIC的成本效益 。此外 , 人工智能的发展日新月异 。仅在几个月内 , 数百种现有拓扑及其各自的神经网络就会有显着的改良 。随着时间的流逝 , 会出现具有不同功能和层级的新模型 , 任何公司都会希望拥抱这些变化 。这就吁求一种可快速原型化和部署的低成本、灵活、可重构的平台 。
随着边缘计算和AI的兴起,FPGA回归初心本色

文章插图

    推荐阅读