Glow 神经网络编译器首次应用于 MCU,面向边缘端机器学习
· 恩智浦展示了应用于 MCU 的 Glow 神经网络编译器为基于视觉和语音的机器学习应用带来的诸多优势 。恩智浦也是首家针对 MCU 实现相较于标准版 Glow 2 至 3 倍性能的半导体供应商
· 开源 Glow 编译器最初由 Facebook 开发,恩智浦现在将其集成到 eIQ?机器学习软件开发环境中,为旗下 i.MX RT 系列跨界 MCU 提供高性能推理
· 恩智浦的 Glow 实施面向 Arm? Cortex?-M 内核和 Cadence? Tensilica? HiFi 4 DSP,为 i.MX RT 系列跨界 MCU 提供特定平台的优化
荷兰埃因霍温——2020 年 8 月 5 日——恩智浦半导体 NXP Semiconductors N.V.今日发布了 eIQ机器学习(ML) 软件对 Glow神经网络(NN) 编译器的支持功能,针对恩智浦的 i.MXRT 跨界 MCU,带来业界首个实现以较低存储器占用提供更高性能的神经网络编译器应用 。Glow 编译器由 Facebook开发,能够集成特定于目标的优化,恩智浦利用这种能力,使用适用于 Arm Cortex-M内核和 Cadence Tensilica HiFi 4 DSP 的神经网络算子库,最大程度地提升 i.MX RT685 以及 i.MX RT1050和 RT1060 的推理性能 。此外,此功能已集成到恩智浦的 eIQ 机器学习软件开发环境中,在恩智浦的MCUXpresso SDK 中免费提供 。
使用 Glow 充分发挥 MCU 架构特性的优势
2018 年 5 月,率先开发 PyTorch 的 Facebook 推出了开源社区项目 Glow(Graph Lowering 神经网络编译器),其目的是提供优化,提高一系列硬件平台上的神经网络性能 。作为一种神经网络编译器,Glow基于未优化的神经网络生成高度优化的代码 。这个特点有别于典型的神经网络模型处理,后者采用即时编译,因而需要更高的性能,还会增加存储器开销 。像 Glow这样直接运行优化代码可以显著降低处理和存储器要求 。恩智浦也在 Glow 开源社区中扮演着积极角色,帮助推广和普及 Glow 的新功能 。
【Glow 神经网络编译器首次应用于 MCU,面向边缘端机器学习】Facebook 软件工程经理 Dwarak Rajagopal表示:“GitHub 中提供的标准版 Glow 可以直接在任何设备上运行,让用户能够灵活地针对感兴趣的基础架构编译神经网络模型,包括 Arm Cortex-A 和 Cortex-M 内核以及 RISC-V 架构 。恩智浦使用充分利用 MCU 计算元件的专用软件库,实现了 2-3 倍的性能提升,展示了从基于云的高端机器到低成本的嵌入式平台的广泛范围内,将 Glow 神经网络编译器用于机器学习应用的诸多优势 。”
优化机器学习框架以增强竞争优势
未来几年内,对机器学习应用的需求预期将会大幅增加 。据 TIRIAS Research预测,到 2025年,98%的边缘设备将使用某种形式的机器学习/人工智能 。根据市场预测,到 2025 年,预计将有 180 亿至 250 亿部设备包含机器学习功能,尽管它们可能并没有专用的机器学习加速器 。消费型设备制造商和嵌入式物联网开发人员将需要优化机器学习框架,以便实现使用 MCU 的低功耗边缘嵌入式应用 。
恩智浦半导体资深副总裁兼边缘处理业务总经理 Ron Martino 表示:“借助 eIQ 机器学习软件框架,利用高度集成的 i.MX 应用处理器和高性能 i.MX RT 跨界 MCU 的强大功能,恩智浦正在推动机器学习功能在边缘设备上的实现 。随着 i.MX RT 系列跨界 MCU 增加对 Glow 的支持,我们的客户能够编译深度神经网络模型,为他们的应用带来竞争优势 。”
恩智浦的面向机器学习的边缘智能环境解决方案是一个全面的工具包,提供开发人员需要的构建模块,帮助他们高效地在边缘设备中实施机器学习 。Glow 整合到 eIQ 软件后,机器学习开发人员将拥有全面的高性能框架,可在包括 i.MX RT 跨界 MCU 和 i.MX 8 应用处理器的恩智浦边缘处理解决方案上进行扩展 。客户拥有了更强大的工具,能够在 i.MX RT MCU和 i.MX应用处理器上开发机器学习语音应用、对象识别、人脸识别等应用 。
利用恩智浦的 Glow 神经网络实施来提高性能
eIQ 现在包含对 Glow 和 TensorFlow Lite 的推理支持,对于这些实施,恩智浦通常会执行基准测试以衡量其性能 。MCU 基准测试包括标准神经网络模型,例如 CIFAR-10 。以 CIFAR-10 模型为例,恩智浦采集的基准测试数据表明了如何利用 i.MX RT1060 器件(采用 600MHz Arm Cortex-M7)、 i.MX RT1170器件(采用 1GHz Arm Cortex-M7)和 i.MX RT685 器件(采用 600 MHz Cadence Tensilica HiFi 4 DSP)的性能优势 。
恩智浦对 Glow 的支持离不开 Cadence 为 Tensilica HiFi 4 DSP 提供的神经网络库(NNLib),该 DSP 提供了 4.8GMAC 性能 。同样以 CIFAR-10 为例,恩智浦的 Glow 实施使用这一 DSP 来加快神经网络运算,实现了 25 倍的性能提升 。
Cadence Tensilica IP 企业副总裁 Sanjive Agarwala 表示:“Tensilica HiFi 4 DSP 最初集成在 i.MX RT600跨界 MCU 中,目的是提高各种不同的音频和语音处理应用的速度 。但是,当有越来越多机器学习推理应用瞄准了低成本、低功耗的 MCU 级应用时,HiFi 4 DSP 凭借固有的 DSP 计算性能,成为加快这些神经网络模型的理想选择 。随着恩智浦在 eIQ 机器学习软件中实施 Glow,i.MX RT600 MCU 的客户能够利用该 DSP 来满足多种机器学习应用的需求,包括关键词检索(KWS) 、语音识别、降噪和异常检测 。”
Arm 公司机器学习营销副总裁 Dennis Laudick 表示:“恩智浦将 Arm CMSIS-NN 软件库包括在 elQ 中,目的是最大程度地提升性能,减少 Arm Cortex-M 内核上的神经网络存储器占用 。以 CIFAR-10 神经网络模型为例,恩智浦能够利用 CMSIS-NN 实现 1.8倍的性能提升 。其他神经网络模型应该能够产生相似的结果,这清晰地展示了这款高级编译器和我们的优化神经网络算子库的优势 。”
上市时间
恩智浦的集成 Glow 神经网络编译器的 eIQ 软件现已上市,通过 i.MX RT600 跨界 MCU、 i.MX RT1050和 i.MX RT1060 跨界 MCU 的 MCUXpresso SDK 提供 。未来将会推出适用于恩智浦其他 MCU 的集成Glow 神经网络编译器的 eIQ 软件 。
关于 i.MX RT 系列跨界 MCU
i.MX RT 系列是业内首个跨界 MCU 产品组合,以经济的价格,提供高性能的 Arm Cortex-M 内核、实时功能和 MCU 可用性 。该系列代表了低功耗应用处理器与高性能微控制器的融合 。i.MX RT 系列填补了传统 MCU 和 i.MX 应用处理器之间的空白,为 MCU 客户提供了显著提高性能和改进集成的方法,一如既往地简单易用 。
推荐阅读
- 神经网络中词向量是怎么表示的?
- 深圳先进院等提出基于卷积神经网络的低剂量光声成像方法
- 云天励飞申请“面向人工智能应用的神经网络处理器关键标准与验证芯片”
- 神经网络与“老式AI”结合,MIT和IBM联合解决深度学习痛点
- GCC11编译器已初步支持AMD Zen3
- 牛人自述,我是华为编译器的优化师
- 英国推出可应用于ADAS和自动驾驶的神经网络加速器
- iOS 14.2原生支持了JIT编译器 模拟器类APP受益
- C51编译器-语言扩展_5-中断函数
- keil c编译器错误与解决方法