烤箱搬出最大显卡后,英伟达在厨房发布了7nm安培GPU

由于新冠肺炎疫情的影响 , 每年一度的GTC大会 , 今年采用了线上发布会的形式 , 而英伟达(NVIDIA)创始人兼CEO黄仁勋变身主厨 , 将发布场地挪到了自家厨房 。也不知道是不是显卡玩家圈里2080Ti像煤气灶的梗 , 前两天的预热视频中 , 黄老板是从烤箱中扛出的此次发布会新品……
据黄仁勋介绍 , 他已经在家工作四十五天了 , 这次的演讲视频是在家里的厨房提前录制的 , 本次2020 GTC的主题演讲和新品发布只用了用7个视频就完成了 , 也被他称作NVIDIA史上第一个"厨房 Keynote" 。
5月14日晚间 , 在NVIDIA GTC2020大会上 , 英伟达发布备受期待的7纳米(nm)工艺安培(Ampere)架构GPU , 以及基于该架构的两款EGX边缘AI平台产品 。最后 , NVIDIA还发布了相应的第三代工作站DGX A100 , 也可以叫个人超级计算机 , 支持在桌面端进行AI研究 , 并扩展到云端 。
这次的GTC 2020大会演讲中 , 黄仁勋主要谈的就是HPC计算、AI人工智能、自驾驶等方面的内容 。
世界上最大的7nm GPU期盼已久的安培架构GPU——A100终于正式发布 , 跟2018年发布的上一代图灵(Turing)架构GPU一样 , 黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃 。
"A100 是迄今为止人类制造出的最大 7nm工艺芯片 , 集AI训练和推理于一身 , 并且其性能相比于前代产品提升了高达20倍 。"黄仁勋说 。就具体参数来看 , A100 采用目前最先进的台积电(TSMC)7nm工艺 , 拥有 540 亿个晶体管 , 而且是一块CoWoS 3D 堆叠芯片 , 这种封装专为科学计算 , 云图形和数据分析而构建 。芯片面积高达 826平方毫米 , GPU的最大功率达到 400W 。
它除了拥有6912个CUDA核心 , 还采用第三代张量计算核心(Tensor Core
) , 支持TF32运算 。黄仁勋对此解释道 , 无需任何代码改变 , 就可以让FP32精度下的AI性能比上一代Volta架构提升20倍 , 达到19.5 TFLOPS(万亿次/秒) 。此外 , TensorCore还支持FP64双精度运算 , 与HPC应用相比带来了2.5倍的性能 。
【烤箱搬出最大显卡后,英伟达在厨房发布了7nm安培GPU】
除了性能提升 , 安培GPU也可以实现在一个平台上对横向扩展以及纵向扩展的负载的加速 。"A100将在提高吞吐量的同时 , 降低数据中心的成本 。" 黄仁勋说到 。
凭借这些新功能 , 英伟达A100能够成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择 。
上一次英伟达发布如此性能强大的GPU芯片还是2017年的Tesla V100 。在英伟达看来 , 自Volta 架构的Tesla V100推出后 , 业界对AI模型训练算力的需求增长了 3000 倍 。这显然也是英伟达放手增加算力和吞吐量的动力所在 , 而当时黄仁勋就强调英伟达未来的 GPU 将对训练、推理兼顾 , 这是革命性的突破 。
今天看来 , 他兑现了自己三年前的承诺 。如上图英伟达给出的数据显示 , A100对比前代Telsa V100 , 进行BERT模型训练性能提升了6倍 , BERT模型推理性能提升了7倍 。可是以后应该管这个叫GPU还是TPU呢?
据介绍 , 安培将是NVDIA的新一代GPU核心 , 取代Turing和Volta架构 。换言之 , NVIDIA新一代图形产品只有这一套核心 , 覆盖GeForce、Quadro、Tesla等 。
Tesla A100加速卡首款基于A100 GPU的产品是Tesla A100加速卡 , 据介绍 , 该卡支持第三代NVLINK , 与服务器的双向带宽为4.8 TB/s , GPU到GPU的互连带宽为600 GB/s 。Tesla A100拥有40GB的HBM2内存 , 显存位宽为5120-bit , TDP为400W 。
除了NVIDIA产品已经广泛采用的 Tensor Core核心 , Tesla A100还用到了新GPU的几个重要特性:
其一是多实例GPU-MG(Multi-instance GPU , 简称MIG) , 这是一项创新技术 , 可以将一个GPU划分为七个独立的GPU , 针对不同的目标提供不同的运算 , 最大化提高计算效率 。
第二是第三代NVIDIA NVLink 互联技术 , 能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务 。
最后是结构化稀疏 , 这种全新效率技术利用AI数学固有的稀疏性 , 使性能提升了一倍 。
这几个技术的创新使得Tesla A100加速卡成为苛刻工作负载的理想选择 , 不仅可以用于AI推理、AI训练 , 还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等 。
DGX-A100超级计算机
与此同时 , NVIDIA还宣布了基于Tesla A100的DGX A100超级计算机 , 有8路Tesla A100加速卡 , 性能高达5PFLOPS , 阿里云、AWS云、谷歌云、微软Azure、甲骨文及腾讯云都将推出基于DGX A100的云服务 。
黄仁勋表示 , "AI已经被应用到云计算、汽车、零售、医疗等众多领域 , AI算法也正变得越来越复杂和多样 。ResNet模型的算力需求从2016年到现在已经增加了3000倍 , 我们需要更好的解决方案 。"
DGX-A100搭载了AMD第二代EPYC"Rome"企业级处理器 , 两个AMD EPYC 7742加起来总计128核/256线程 , 最高可达3.40 GHz boost 。
DGX A100配备了八颗安培架构的Tesla A100 GPU , 每一颗整合40GB HBM2高带宽(12.4TB/s)显存 , 总容量达320GB 。
据介绍 , 该系统除了具备10 PETAFLOPS的运算性能外 , 也具备创纪录的5 PETAFLOPS AI性能 。每颗GPU均支持多达12路的NVLink互连总线 , GPU-GPU带宽高达600GB/s , 可保证八颗GPU彼此完全互连 , 同时还有6颗NVIDIA NVSwitch芯片 , 双向带宽高达4.8TB/s 。
不过从示意图上可以看出 , 每颗GPU周围其实有六颗HBM2显存芯片 , 很显然有一颗没有启用 , 剩下的五颗单颗容量8GB从而组成40GB 。
网络方面 , 配备了刚完成收购的Mellanox ConnectX-6 HDR 200Gb/s网络接口 , 包括八颗单端口ConnectX-6 VPI用于聚类 , 峰值性能200GB/s , 以及一颗双端口ConnectX-6 VPI用于数据与存储网络 , 提供总计每秒3.6TB的双向带宽 。MeLLanox网络计算和网络加速引擎 , 例如RDMA、GPUDirect,以 及SHARP技术 , 实现最高性能和可扩展性 。
另外 , 利用A100的多实例GPU功能 , 每台DGXA100系统能够被分割为多达56个实例 , 用于加速多个小型工作负载的处理速度 。凭借这些功能 , 企业可在一个完全集成的软件定义平台上根据自己的需求优化计算力和资源 , 加快数据分析、训练和推理等各种工作负载的速度 。
有趣的是 , 搭配的CPU处理器这次抛弃了Intel至强 , 改而使用两颗AMD二代霄龙(Rome) , 且是顶级的64核心型号 。同时搭配1TB DDR4内存、15TB PCIe Gen4.0 NVMe SSD固态硬盘 , 速度比 Gen3.0 NVMe SSDs 快 2 倍 。
黄仁勋称这它配备了"世界上最大的显卡" , 不算外壳单单是其中的计算板加散热器就有45斤的重量 , 集成超过3万个不同组件 , 钻孔数量多达100万个 , 连接电路长达1公里 。
NVIDIA宣称 , DGX A100相比于高端CPU服务器 , 它的AI计算性能要高出150倍 , 内存带宽高出40倍 , IO带宽也高出40倍 。
NVIDIA DGX A100个人超算现已上市 , 售价19.9万美元(约合人民币141万元) 。
目前已经开始通过合作伙伴网络销售 , 包括DDN Storage , 戴尔 , IBM , NetApp , Pure Storage 和Vast等储存设备供应商也计划将 NVIDIA DGX A100整合到其产品内 。
而美国能源局的阿贡国家实验室(Argonne National Laboratory)已经宣布采用DGX A100 , 该实验室将运用该集群的Al和计算力来更好地研究和应对新冠肺炎 。
黄仁勋说 , 通过一个价值100万美元由5个DGX A100系统组成的机架 , 可以取代当下价值1100万美元 , 由50个DGX-1和600个CPU组成的25个机架AI训练和推理的数据中心 。并且 , 功耗也可以由630kW大幅降低至28kW 。
难怪云服务商们下单这么快 , 老省电费了 , 就像黄老板在发布会视频中说的:"你买得越多 , 你越省钱 。" 。
GPU + SoC 扩展自动驾驶平台自动驾驶芯片也是这次发布的重头戏 。
"自动驾驶汽车是我们这个时代面临的最大的计算挑战之一 。"黄仁勋说 , 为此英伟达也在全力推进NVIDIA DRIVE平台迭代 。
而且这一次 , 不再是单纯的算力叠加游戏 , 英伟达将借助全新的安培GPU和即将推出Orin系统级芯片(SoC) , 对对DRIVE AGX平台进行扩展 , 范围覆盖从ADAS系统到DRIVEAGX PegasusRobotaxi平台 。"既可以为前挡风玻璃提供5瓦的ADAS系统 , 还能将规模扩大到L5级Robotaxi系统 。"
后者配备两个Orin SoC和两块NVIDIA安培 GPU , 可实现每秒2000万亿次运算 , 超过上一代平台性能的6倍 。同时 , 也能够缩小到入门级ADAS/Level 2的案例 , 性能达到10TOPS , 功耗低至5W 。
据悉 , Orin SoC系列将于明年开始提供样品 , 在2022年下半年投入生产并向汽车制造商供应 , 为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础 。
此前 , 小鹏汽车曾采用英伟达Xavier方案搭建L3自动驾驶计算平台 , 就昨天公布的信息来看 , 美国电动车新创企业Canoo的下一代电动汽车、法拉利未来的FF 91、小马智行都计划采用英伟达DRIVE AGX Xavier平台 。
由于小鹏汽车与Xavier平台具有很强的架构兼容性 , 这家公司也在探索对NVIDIA Orin平台的应用机会 。
两款EGX边缘AI平台新品NVIDIA还发布了两款边缘AI平台新品 , 据称能够在边缘提供安全、高性能的AI处理能力 。
EGX A100适用于较大型商业通用服务器  , 微型EGX Jetson Xavier NX适用于微型边缘服务器 。这两款产品能够在边缘提供安全、高性能的AI处理能力 , 适用于制造、零售、电信、医疗等多个行业 。
黄仁勋介绍说 , EGX A100是首个基于NVIDIA 安培架构的边缘AI产品 , 借助英伟达的MeLLanox ConnectX-6 Dx板载网卡 , EGXA100可以每秒接收200 Gb的数据并将其直接发送到GPU内存以进行AI或 5G信号处理 。实时处理来自摄像头和其他物联网传感器的大量流式数据 , 可以更快地获得洞见并提高业务效率 , 例如同时管理机场中的数百台摄像头 。
而EGX Jetson Xavier NX则没有采用最新GPU , 但NVIDIA称其为全球体积最小、性能最强大的AI超级计算机 , 适用于微型服务器和边缘智能物联网盒 。与被业界广泛采用的前代产品Jetson TX2相比 , Jetson Xavier NX模块性能提高了10倍以上 。通过运用云原生技术 , 开发人员即可利用这块仅有信用卡尺寸大小的高AI功能与高计算性能的模块 。运行EGX云原生软件堆栈的EGX Jetson Xavier NX可以快速处理来自多个高分辨率传感器的流式数据 , 例如管理便利店中的少量摄像头 。
具备云原生功能的Jetson Xavier NX已获得嵌入式生态系统的支持 , 据悉合作伙伴已提供了超过20种解决方案 。Jetson Xavier NX开发者套件和Jetson Xavier NX模块现正通过NVIDIA分销渠道进行发售 , 售价399美元 。

    推荐阅读