使具有AI功能的开关芯片产品多样化需要多长时间?

长期以来人们一直对晶圆级架构持怀疑态度,这种怀疑可以追溯到几十年前 。出于商业或技术原因,仅有少数人做过相关尝试,但他们都毫不例外地失败了,当中包括著名的Gene Amdah) 。但是,除了适当建立的半导体技术基础之外,也许还缺少合适的时机 。
如果您问Andrew Feldman,为什么晶圆级方法不那么普遍,他的回答很简单:他在Cerebras Systems的团队是唯一弄清楚如何真正做到这一点的人 。在他看来,没有人能够或将要尝试这个,至少短期内不会 。
“我认为没有人能做到 。我们花了五年的时间,我们还拥有庞大的专利产品组合 。AI这一工作量将占总计算量的约三分之一 。如果您看一下Google,他们已经完成了大部分工作,看起来像是AI工作负载 。此外,用于解决AI问题的计算量正以惊人的速度增长 。在接下来的三到五年中,数据中心中的更多工作将是AI或类似AI的工作,更多的难题将围绕如何在数据中寻找见解 。”
如果我们巧妙地越过专利组合的那薄弱的威胁,以及它对 Cerebras 的可能性证明所鼓舞的潜在初创公司意味着什么,那么还会出现其他一些问题 。首先,为什么以前没有这项工作,其次,如果现在可能的话,为什么专业人士不这样做呢?
“我们观察了1984年Amdahl所做的晶圆级芯片,事实是,人们对此记忆犹新的的是芯片是如此之大,但他们其实从未真正看过它 。当时我们的行业还不那么成熟,所以肯定围绕芯片制造工艺 。但自那时以来,我们已经制造了成千上万的芯片 。流程和体系结构要好得多 。我们为晶圆规模选择了一种架构,但Gene Amdahl没有 。我们试图采用他喜欢的架构并将其推广到晶圆级 。

使具有AI功能的开关芯片产品多样化需要多长时间?
文章插图
【使具有AI功能的开关芯片产品多样化需要多长时间?】 他继续说道:“我们能够利用我们的架构设计芯片并物理现实 。我们要做的一件事是用超过40万个相同的块构建重复的图块设计 。如果发生故障,我们可以解决 。这是一个新发现,它是如何结合已知的事实,即存在缺陷的已知事实 。这不是新事物;DRAM将位单元的行和列放在一边,这就是他们获得高良率的方式 。但是直到我们这样做之前,没有人使用计算机来做到这一点 。”
诀窍可能是做到这一点并拥有一个功能齐全、高效的系统,但是,您不能只出售独立的设备,并不是每个芯片制造商都希望负担(尽管Nvidia的DGX机器可能反映出不同的东西) 。从编译器到冷却的完整堆栈是唯一有意义的方法 。这正是Feldman的公司Cerebras Systems正在推广其CS-1系统的原因 。回想一下,Cerebras今年通过其Wafer Scale Engine方法应用于AI获得了一些动力,特别是在以研究为中心的站点上进行了安装,包括Lawrence Livermore国家实验室,Argonne国家实验室和匹兹堡超级计算中心 。很难说出它们可能在企业或超大规模系统中的位置,但就目前而言,即使在纯AI训练和推理之外 。
我们必须假设英特尔和Nvidia的大量研究预算至少使该主题有了一些想法,尤其是在看到Cerebras证明了这一概念之后 。也许他们确实找到了使所有片上电路都变得更重要的方法,更重要的是,编译器成功地解决了这一问题,并发现尽管实用,但从经济上讲不合算 。也许那是因为您不能仅仅构建要在2020-2025年的晶圆级游戏中使用的设备:整个系统必须以人类已知的最复杂的代码签名练习之一来构建 。大多数芯片制造商和加速器初创公司都不希望(或实际上不能)从事系统业务,并且该设备的集成也不是典型的集成过程 。
具有大量内核且可以超快速度通信的芯片有很多机会,而这些都不是新鲜事物 。除了AI,HPC领域(包括计算流体动力学)具有广泛的商业价值,适合大规模使用信号处理等工作 。开关芯片的想法更加萌芽,如果该行业已经在使用一些最大的硅片,那么在更广泛的可行范围内,它可以轻松地改变晶片规模 。那只是近期 。我们甚至可以更进一步,提出一个系统的概念,该系统将晶圆级引擎与裸露在机架上的硅光子相连,能够保持凉爽并真正处理大量工作负载,而无需离开设备或横向扩展而无需全部多余的热量和性能损失 。但这是另一个长远的故事 。
对于石油和天然气以及超级计算级科学法规中HPC等高价值应用领域,新架构的挑战始终是相同的 。这些代码基本上是一成不变的,只有最近才可以从GPU加速中受益 。但是,对于那些愿意大力投资的人来说,人工智能的故事显而易见 。我们从未能够了解晶圆级方法的成本,以及与使用相同晶圆进行切片和切块以单独出售的方式有何不同 。使所有部件连接起来的所有额外网络可能会带来可观的成本开销 。
对于那些定义狭窄的应用程序集,是否有足够的市场需要解决,以使所有这些都值得呢?以及其中一家开关芯片制造商和集成商得到暗示并为其工程购买Cerebras以及使具有AI功能的开关芯片产品多样化需要多长时间?
“如果您看一下Nvidia和Intel的研究,他们正在发表论文说无法做到 。我们解决了70年来一直未解决的问题 。这些拥有数万名工程师的巨型公司一直说这是不可能的,而我们位于洛斯阿尔托斯(Los Altos)房地产市场的小团队做到了 。他的断言是,由于天生缺乏技术,大公司没有追求晶圆规模 。“ Nvidia和其他公司知道更大的芯片更适合这种工作负载 。如果您从2013年开始绘制GPU的图表,它的大小将增加一倍以上 。为什么?因为他们知道更大的筹码会更好 。但是他们不知道怎么做,仍然不知道,是如何变得大50到60倍,这就是我们所做的 。”他补充道 。
即使可以甚至确实存在硅片规模,也无论如何都无法解决所有问题 。但是对于需要小型,密集计算和低功耗,低延迟和超高带宽的大规模通信的AI工作负载,这种方法很有意义 。尽管其他加速器和基于加速器的系统提供了此功能,但仍然存在外部网络无法解决的问题 。
但是,如果晶圆级的概念被证明是有效的,我们是否可以看到其他初创公司采用类似的方法?对自己的工厂进行严格控制的公司可以轻松实现这一飞跃 。Feldman说,他们之所以没有这样做,是因为他们不知道如何做,但他们这样做的原因可能更加复杂,并且与关注点,半导体经济和需求有关 。如果是这样,他们将不得不用一种价格便宜的产品来应对潜在的市场吗?例如,考虑到像英特尔这样的拥有全部网络,晶圆厂和市场专业知识的公司并没有走这条路,那么,肯定有些事情要么不值得努力,要么根本无法完成 。
那么,要回答标题中的问题,是否有至少一个或两个以上的初创公司,也许还有一个专业进入该行业的晶圆级芯片行业 ?也许 。这就是为什么我们保持密切关注Cerebras机器的原因 。不仅是为了查看它是否有效,还在于编程模型如何运行以及它是否真的可以承担起不仅仅限于AI的任务 。
如上所述,基于大型晶圆的 机架和硅光子技术相结合的系统的未来发展并非无道理,这种技术可以解决热量问题,并具有可分割,可扩展且在合理的功率预算内的真实通信 。然后事情就变得有趣了,特别是如果魔术编译器可以真正地在HPC和大规模分析中使用并行代码以及AI工作负载演变成的任何东西 。
责任编辑:tzh

    推荐阅读