Cerebras：挑战英伟达全球最快AI推理芯片的“魔法”--打印文章

Cerebras：挑战英伟达全球最快AI推理芯片的“魔法”

作者：佚名文章来源：本站原创点击数更新时间：2024/9/13 22:48:40 文章录入：admin 责任编辑：admin

　　大模型的出现使得AI芯片的需求暴增，但在这个市场，英伟达占据了近90%份额，其市值也曾超过3万亿美元。

　　为什么英伟达能一家独大？尽管芯片市场上还有AMD等厂商，但在需要大规模算力集群的大模型预训练阶段，英伟达几乎是唯一一个接收过数万块GPU芯片性能运行验证与反馈的平台，这对其他芯片厂商来说存在非常高的门槛，当然，英伟达GPU软件栈在加速方面也具有优势。

　　随着大模型推理需求大幅增长，开发者可以使用小规模的算力开发生成式AI应用，由此形成了一个不同的竞争赛道。根据IDC此前的调研，AI推理芯片在2020年已经占据中国数据中心50%以上的市场份额，并预计到2025年，这一比例将增至60.8%。另据英伟达2025财年第一季度财报电话会议记录纪要，在过去的四个季度中，预计超过40%的数据中心收入来自AI推理业务。可见，AI推理市场具有开阔前景。

　　不少创业公司也已入局AI推理市场。除了像硅基流动、Fireworks等通过开发AI推理软件栈加速性能优化的公司外，也有寻求通过新的架构设计专门推出AI推理芯片的公司正在挑战英伟达的地位，其中，这一领域备受关注公司是Cerebras Systems、Groq。

　　8月28日，Cerebras推出了其AI推理解决方案，能让Llama 3.1-8B达到1800 token/s的输出速度，大约是英伟达GPU推理速度的20倍，比Groq快约2.4倍，这主要在于Cerebras创新的AI芯片设计，允许整个模型存储在芯片上，从而解决GPU推理所无法避免的内存带宽瓶颈。这家成立于2016年的巨型晶圆级芯片制造公司展示了AI推理芯片领域创新的巨大潜力。

　　目前，Cerebras推出的旗舰产品CS-3是现存最快的AI计算机，它包含Cerebras Wafer Scale Engine（WSE-3）。WSE-2是迄今为止最大的芯片，包含4万亿个晶体管，面积是46225平方毫米。在AI工作负载中，大芯片能够更快地处理信息，从而在更短的时间内生成答案。关于Cerebras硬件的核心架构、纵向扩展和横向扩展方面的创新方法，OneFlow此前发布的文章《深挖Cerebras：世界上最大AI芯片的架构设计》有深入介绍。

　　近期，在机器学习播客Gradient Dissent中，主持人Lukas Biewald与Cerebras联创&CEO Andrew Feldman进行了一场对话，后者重点分享了对AI芯片领域的洞察。其中，他们探讨了Cerebras最新发布的开创性AI推理芯片及平台，分析了其晶圆级芯片如何在速度、准确性和成本效率方面达到了新的基准，Andrew还分享了使这一切成为可能的芯片架构创新的见解，并讨论了这对生产环境中AI负载的更广泛影响。

　　在他看来，我们还处在AI推理的“拨号上网时代”，当响应速度很慢时，很多极其有趣的应用无法实现。

　　创办Cerebras前，Andrew Feldman与他人共同创立并担任微服务器公司SeaMicro的CEO，后在2012年被AMD以3.57亿美元收购，此外，他还担任过Force10 Networks（被戴尔以8亿美元收购）、RiverStone Networks的营销和市场副总裁。他还拥有斯坦福大学的学士学位和MBA学位，有意思的是，他的专业是经济学/政治学，但后来在芯片领域干了30年。

　　Andrew：我们走过了一趟非凡的历程。我们构建了数十个exaFLOPs的计算资源，建立了世界上最大的AI训练集群之一。我们训练的模型已经投入生产，解决了药物设计中的基本问题。我们有最好的阿拉伯语-英语聊天大模型。我们还发表了一些论文，进一步推进了电子仿真和地震分析领域的技术前沿。

　　Lukas：你们在这么多不同领域表现出色，所具备的优势是什么？你们的芯片在什么领域表现得最为出色？

　　Andrew：那些吹嘘自己的产品在各方面都很好的人几乎都在胡扯。当你选择一种架构时，你会做出一些权衡。你在某些方面会很好，而在其他方面则可能不太好。

　　在训练方面，如果你的模型可以在一个GPU中运行——也就是一个小模型——那么你可能就用一个GPU，但随着训练工作的复杂化，比如你要在100个GPU、1000个GPU或10000个GPU上工作，那么将模型分布到整个计算上是非常艰难的。这恰恰是我们的强项，因为我们拥有巨型芯片，工作分布变得非常简单，实际训练速度就会非常快。

　　我们最新发布的是当前全球最快的推理系统，准确性最高，且成本最低，所以不只领先一点点。对比Azure上的NVIDIA H100，基于我们芯片的推理平台的速度要快20倍。这是因为GPU具有内存带宽的限制，而我们构建的巨型芯片让所有的内存都在芯片中，没有这个困扰。

　　因此，随着越来越多的人使用嵌入AI的应用，并且使用频率增加，对推理计算能力的需求也随之暴涨。现在生成式AI市场中的推理计算占比大约是40%，并且增长速度预计将继续超过训练市场，即便训练市场也在还繁荣发展。

　　Andrew：GPU允许你增加用户，但每增加一个用户推理速度就会变慢，这是一个你需要做的权衡。那些运行速度非常快的系统，用户数量非常少。所以，像TogetherAI、Fireworks这样专注于推理的公司，优化速度非常快，但他们不能一次同时支持很多用户。而我们的推理系统没有这样的权衡，推理速度极快，且可以同时支持许多用户，这也能让我们降低成本。

　　Lukas：大家都注意到，目前很多公司都在投身推理领域。然而，推理业务本身似乎并不容易，我观察到一种推理服务提供商的“繁荣-衰退”循环现象，一个公司刚推出一个令人惊叹的结果，然后几周后，另一家公司又推出了同样令人惊叹的结果。当API仅仅是当文本查询来使用时，似乎对用户并不存在太多的锁定效应。

　　Andrew：你的观察是正确的。首先，如果大家都在使用相同的硬件，那么实际上你所做的就是在这些硬件上争夺软件优化的空间。这是一场艰难的战斗，这也是我们选择完全不同的架构的原因。所有的GPU和NPU都基于HBM（高带宽内存），这些内存是位于芯片外部的，它们都面临相同的内存受限，而这正是工作负载的关键瓶颈。这导致推理速度是有极限的，他们无法在内存和计算之间传输比内存带宽允许范围内的更多数据包。

　　而我们使用的是一种完全基于SRAM（静态随机存取存储器）的晶圆级芯片，拥有比它们多7000倍的内存带宽，因此，我们能够解决这个问题，并实现别人无论投入多少钱、多少GPU、时间或努力都无法达到的解决方案和性能。所以，如果你想要获得有意义且持久的优势，就必须拥有更好的架构。这是最重要的。

　　Lukas：如果你们的吞吐量更高，或者时延更低，并且在相同准确度下有数量级的提升，那为什么你们的定价还要比其他类似方案更低？

　　Andrew：我们打算强力进军这个市场。我们认为会出现以下情况：当年互联网速度很慢，Netflix还在邮寄DVD。后来，互联网速度提升了，流媒体服务开始了，然后每个人都开始制作自己的视频。当基础设施变快时，你就能够支撑起数十亿美元的市场。

　　现在，我们还处在AI推理的“拨号上网时代”——速度很慢，当你在等待回应时，几乎可以听到过去调制解调器连接时发出的噪音。我们的目标是将推理市场做大，占领这个市场，并向人们证明，当推理速度慢时，很多极其有趣的事情无法实现。

　　有一个非常简单的例子：如果你让LLaMA 70B解一道数学题，它经常会做错。如果你提一个更难的问题，要求它“带我过一遍你用来解决这个问题的逻辑”，虽然这会消耗更多词元，但它通常能正确解答。想象一下，如果你能在解答前一个任务所需的时间内完成后一个任务，那么你将得到一个更好的答案。

　　现在，很多用户都会不断重复使用和调整他们的输入提示以获得更好的回答。我们选择一个模型，向它提出问题，然后根据回答进行调整，再次询问以改进回答。如果你通过编写代码来实现这一点，如果你快了十倍，就可以进行十次迭代，相当于以前的一次迭代时间，而你每次都会获得更高质量的结果。

　　这个例子说明了速度如何转化为更高质量的答案，而这就是我们想为开发者社区提供的东西，也是我们的愿景所在。

　　Lukas：许多客户越来越希望建立复杂的安全护栏系统，这些系统涉及并行调用LLM。

　　Andrew：这一点非常重要。人们希望用它们来构建护栏，保持安全性，并希望通过检查来管理幻觉。在把提示分解成数百个小提示并将其引入智能体世界来重构回答之前，现有模式已经有一些优势。

　　Lukas：我感觉你在与英伟达的竞争中表现出了大卫对阵歌利亚的姿态（“大卫对阵歌利亚”指的是以弱胜强的典故，象征着弱小的一方凭借勇气和智慧战胜强大的对手，出自圣经《旧约》），而且你是为数不多敢于向黄仁勋发起挑战的人之一，不仅你对记者们公开叫板，你们俩同台的会议上你也当面对他说了。英伟达真的是你的目标吗？还有很多公司对芯片有不同的见解，他们在推理市场上找到了利润丰厚的机会，并且找到了不同的竞争角度。你会不会也担心这些公司，还是说你的目标只是英伟达？

　　Andrew：我确实对英伟达发起了一些挑战，他们就是歌利亚。在我们行业过去十年中有三位伟大的CEO，Broadcom的Hock Tan、AMD的苏姿丰和黄仁勋，他们的公司所做的事情是非凡的，如果十年前有机会，你肯定会想成为他们的投资者——你会想买他们的股票。

　　虽然我在追赶并与他们竞争，但这并不意味着我不尊敬他们，也不是否认他们缔造的。同时，这并不妨碍我们确实造出了更好的产品。我们的挑战在于击败H100，然后再击败接下来出现的产品，或者再接下来的产品。这确实是大卫对抗歌利亚，英伟达几乎占据了所有市场份额，其他初创公司也在发起挑战——我也祝他们好运。

　　花时间为一小块市场争斗不是初创公司的正确策略，正确的策略是去大市场，挑战那些最大的玩家，并且做他们做的事情，不是好一点，而是成倍得好。

　　Andrew：从市场表现来看，AMD即将迎来辉煌的一年，他们的产品销量将大幅增加，但在我看来，他们仍然是一个小型竞争者。当然，相比之下，还有比他们更小的竞争者。作为一个小型竞争者，规模并不总是优势。我以前的足球教练常说：“规模虽小，但也会有独特之处。”小公司能够迅速调整，招聘那些只专注于工程而不愿意处理大公司各种繁琐事务的顶尖人才。

　　然而，我们也是AMD的大客户。在我们的训练解决方案中，我们使用了他们的EPYC处理器和Genoa处理器。我们非常尊重他们的工作，有时候，竞争对手也可能是朋友。

　　我之前的公司SeaMicro被AMD收购了，我有幸和苏姿丰（AMD CEO）一起工作。她非常出色，我们对她、Mark Papermaster（AMD CTO）、Victor Peng（前AMD总裁，已退休）以及整个团队都怀有极大尊敬。但我认为，当你是一个专业人士时，你会希望与最优秀的对手竞争——这也是我一直以来的职业目标，正如你希望进入顶级体育联赛，迎战最强的球员。

　　因此，去思考“这些是商业领域中最出色的CEO，我们怎么才能超越他们？”似乎是真正的乐趣所在。我们如何利用自身优势来为客户提供服务——比如出色的工程能力、无畏的精神，以及解决其他人难以解决的问题的能力。

　　最近英伟达遇到了一些封装方面的挑战，导致了下一代产品的严重延迟。我们估计，这些问题主要与热膨胀系数有关，也就是如何将芯片放置在中介层上。我们五年前就已经思考这些问题并解决了。看到自己的工作得到回报时，确实很有成就感。这正好恰恰是成为一个成功的挑战者所需要做的工作。

　　Lukas：我观察到，最近一个月左右有传闻说芯片价格可能会下降。最近也有很多人联系我，试图向我出售H100等产品。这是真的吗？芯片需求可能会有所收缩吗？

　　Andrew：我认为，中间商手里有一大堆芯片，他们会试图向通常不购买硬件的软件公司进行推销，但这对一家软件公司的CEO而言，这并不是一种经过深思熟虑的销售策略。这意味着，原本分配给某些客户的订单出了问题，导致市场上出现了成千上万的芯片。如果你和那些超大规模的客户谈，他们会告诉你，他们没有足够的算力，也没有足够的物理空间和电力来运行所有的算力设备。所以，对于那些消耗大量资源的公司来说，需求依然非常旺盛。

　　像我们在阿联酋的合作伙伴正在构建主权云（Sovereign Cloud，一种确保数据存储和处理完全遵循当地法律的云服务模式，用于保护数据主权），全球范围内，尤其是在中东和欧洲，主权云正在兴起。这些客户的AI计算能力的需求仍然非常大。

　　我们要认识到的是，这种需求正在转移到大型金融机构。最初，高层人士会拍桌子说，“我们需要AI”，然后一堆副总裁和总监到处奔波——那是去年的情况。现在，他们会说，“这里可以省下一大笔钱，我们可以用AI创造价值，这就是我们需要购买的东西。”去年在PPT里讨论的内容已经变成了今年的项目和实际价值，这种趋势将在未来两到三年内持续。

　　Andrew：这可能就有点超出我们的能力范围了。我们所设计制造的晶圆级芯片能够安装到机架中，我们设计的机架能够放入标准的数据中心机柜，但我们还没承担过数据中心的实际建设工作，我们真正需要做的是按兆瓦租用电力和物理放置空间，然后建造一个大型集群。

　　Lukas：我很喜欢你对这个市场的乐观态度。说实话，我对金融服务市场有点担心。虽然我们确实看到需求大幅增加，但这些项目的投资回报率目前让人感到不安。从我的观察看，人们似乎对很多项目都会质疑“真的有回报吗？这些项目只是因为有AI成分就获得资金了吗？”我不想点名任何一位可能在听这档播客的客户，但我认为，大家都同意这种情况时有发生。

　　Andrew：就像有些初创公司一样，拿出了一个之前的商业计划，重新包装，在11个地方加上AI，然后它就成了一个AI计划，这些项目注定无法成功。

　　不过，那些开始对项目深思熟虑的企业将会构建在项目中部署和使用AI的能力。软件方面也是如此，如果你只是随便使用它，效率远不如用NetSuite或者别的工具那么高。你可以从中获得的价值从“一个好会计用皮革装订的账本就能做好工作”到“这是一个真正帮助我们以完全不同的方式运营业务的工具。”问题不在于工具本身，而在于工具的部署方式。

　　你有时会看到，客户成功团队在和客户合作时说：“如果用这种方式来做，这个软件可以以不同的方式帮助你们。” AI也是如此——有些项目会失败，但那些会反思并说“下次我们要这样、这样再这样做”的人，下一次就会取得巨大成功。

　　在一个快速变化的环境中，等待一切都顺利和完美时才行动，是一种非常糟糕的策略。

　　如果学习能够带来回报，你就需要做项目。这些项目不必是非常昂贵的项目，但你必须参与到技术中，必须尝试用技术和数据解决问题。即使你的第一个AI模型失败了，没有产生价值，但如果你发现了你的数据一团糟，这几乎是每个人开始做真正的AI时学到的教训，你懂得了这一点，立即开始清理、组织和调动资源，使数据变得更好，这也是一种成功，因为下次不管是做AI开发还是其他东西，你的数据都会处于更好的状态。在这个领域中，积极行动的人一定会领先。

　　Lukas：这是一个很积极的解读。你说得对，我们需要积极参与，需要不断学习，需要与客户合作。我同意，从长远来看，这样做有巨大的价值。我们都经历过经济的繁荣和衰退周期，要精准把握这些节奏是非常困难的，但毫无疑问，现在大家对新技术都很感兴趣。不过，许多公司目前正努力将新技术转化为在实际用例上能够稳定发挥作用的东西。在我看来，这在金融服务领域尤为明显，有很多应该能够成功的用例，但每一个都很难完全实现。

　　Andrew：经济学家保罗·大卫曾写过一篇著名的论文，名为《发电机与计算机：现代生产力悖论的历史视角》。他是一位经济历史学家，研究了电力在制造业中的应用情况。他之所以这么做，是因为在80年代中期有人提出了这样一个问题：“我们在各处都能看到计算机，但在生产力统计数据中却看不到。”

　　大家桌子上都摆着计算机，我们到处都能看到计算机，但任何数据中都看不到生产力的提升。他的研究结果后来成为了大家普遍接受的观点：最初，这项技术只是被用来小幅改进那些已经在做的事情。

　　计算机取代了打字机，提供了文字处理、记账服务以及其他功能，但我们之前在这些方面已经做得不错了，所以最初的收益是有限的。不过，当我们重新组织输入并转移到云端时，我们解锁了软件使用的全新方式，生产力也随之大幅提升。

　　很多普通项目最初会产生普通的结果，但这就是技术被采用的一贯方式。当我们用AI取代我们已经做得不错的事情时，虽然会减少错误并有所改进，但生产力的提升可能不会显著，相关的生产力统计数据也可能无法令人满意，但当我们进行更为根本的重组，真正利用AI的本质时，会看到生产力的大幅跃升，这将体现在更低的成本、新的服务以及一些让生活更美好的应用中。这是未来的发展方向。

　　Lukas：AI的最新进展对你们的芯片制造有多大影响？这是否是你们成功的一部分，还是另一回事？

　　Andrew：用于芯片设计的EDA工具很早之前就开始应用机器学习技术了，包括各种统计方法、决策树、优化理论等方法，但它们还没有使用现在热门的生成式AI模型。我认为，现在还处于非常早期的阶段。尽管如此，现有的芯片设计专家在晶体管和电路设计方面已经有非常卓越的技术，但在未来三到五年内，还不太可能看到AI设计的芯片会超越人类设计师。

　　不过，在芯片设计的每一个阶段，都有各种各样的部分可以改进，节省更多时间。这并不是在取代人类的洞察力，在布局、路径规划等重复性任务中，机器应该比人类更擅长。未来的趋势是，AI的使用场景会逐渐围绕核心洞察力展开，这样会降低芯片设计的成本并加快速度。之后，AI会逐渐渗透到一些最难的问题中，比如将芯片架构师的设计愿景转化为逻辑。

　　Andrew：我们没做。情况有所不同，要做到这一点，需要大量的关于众多芯片的数据，而拥有这些数据的是TSMC、三星或EDA工具制造商。你需要拥有500或上千个芯片设计的数据，才能做出真正的成绩，而不仅仅是为了营销。每个人都可以说，“我在这里或者那里使用了机器学习和AI，”但你真正想要的是描述每一个曾经制造过的芯片逻辑的数据库。

　　谁拥有这些数据呢？现在没人拥有。AMD、英伟达、英特尔都分别拥有自己的数据，一个普遍的问题是，这些数据不容易汇集，这会延缓像AI这样的数据密集型技术的使用。在核心洞察力方面，我们还需要一些时间，才能让AI超越那些拥有30或40年芯片设计经验的工程师。

　　Lukas：我觉得你们的推理业务，实际上是把赌注押在了开源软件上。我注意到，每个押注开源软件的CEO似乎都很相信开源软件会胜出，但从我的角度来看，这个事情似乎不那么笃定。你觉得开源模式就是未来吗？

　　Andrew：我不确定，我们并不依赖开源。我们有一些客户是闭源的，他们在我们的设备上进行推理。

　　我觉得这是一场战斗，谁会胜出还不清楚。在其他开源与闭源的战斗中，谁赢谁输也不清楚。我认为，运行真正的开源操作系统的大型企业并不多，很多企业使用的是经过支持的开源操作系统。在很多领域，你都可以看到开源软件取得了很大的成功，但这并不显而易见。不过，开源对整个生态而言是健康的，对每个人都有好处。

　　不仅仅是少数几家公司，而且也不仅仅是那些人们所预期的公司。那个领先的闭源公司（OpenAI）在七年前还是一个名不见经传的初创公司，而那些已经存在了四五十年的公司并不是模型构建领域的领军者。Facebook致力于开源，现在正在产出出色的模型，还有其他团队也在这样做。环顾四周，你会发现通往罗马的路不止一条。

　　我不确定未来的战略会是怎样，也不确定战略是否会是一种混合模式，比如在Llama的基础上进行一些额外的改动，或者将开源与一些闭源组件结合起来完成某些工作。又或者编写连接上百个较小开源模型的粘合软件，这些粘合软件非常复杂并且提供了巨大的价值。这一行业的有趣之处在于动态性，有很多方式可以抓住机会，而你会看到许多不同的战略在逐步展开。

　　看到别人的策略时，你也许也会不禁感叹，“哇，他们居然用一系列小模型来构建大型模型，”这本身就是一件很有趣的事情。而另一些人则说，‘我们在资金方面有优势，所以要尽可能多地购买计算资源，并且相信拥有最大计算能力的人将会胜出”，这又是一种不同的策略，看着这些策略展开就像玩电子游戏一样，真的很有趣。

　　Lukas：哪些公司是那种“我们有更多的钱，所以要购买最多的计算资源”的公司？

　　Andrew：OpenAI曾表示，他们相信拥有最多的计算资源是赢得胜利的基础之一，马斯克尝试建立全球最大的训练集群也是这种策略。这很可能是正确策略，但我不确定，还需要拭目以待。

打印本文

关闭窗口