最强AI芯片WSE-3发布:4万亿个晶体管,90万核,125 PetaFLOPS算力

站长云网 2024-03-14 站长云网

今天,芯片初创公司CerebrasSystems推出了全新的WaferScaleEngine3,并将其现有的最快AI芯片世界纪录加倍。据介绍,在相同的功耗和相同的价格下,WSE-3的性能是之前的记录保持者CerebrasWSE-2的两倍。

基于5nm的4万亿晶体管WSE-3专为训练业界最大的AI模型而构建,为CerebrasCS-3AI超级计算机提供动力,通过900,000个AI优化计算核心提供125petaflops的峰值AI性能。


一颗惊人的芯片,约等于62颗H100

CerebrasSystems表示,这款新器件使用台积电的5nm工艺打造,包含4万亿个晶体管;90万个AI核心;44GB片上SRAM;;外部存储器为1.5TB、12TB或1.2PB;峰值性能为125FP16PetaFLOPS。Ceberas的WSE-3将用于训练一些业界最大的人工智能模型,能训练多达24万亿个参数的AI模型;其打造的集群规模高达2048个CS-3系统。


值得一提的是,当Cerebras提到内存时,他们谈论的更多是SRAM,而不是片外HBM3E或DDR5。内存与核心一起分布,目的是使数据和计算尽可能接近。

为了展示这颗新芯片的规模,Cerebras还将其与英伟达的H100进行了对比。


除了将这款巨型芯片推向市场之外,Cerebras取得成功的原因之一是它所做的事情与NVIDIA不同。NVIDIA、AMD、英特尔等公司采用大型台积电晶圆并将其切成更小的部分来制造芯片,而Cerebras将晶圆保留在一起。在当今的集群中,可能有数以万计的GPU或AI加速器来处理一个问题,将芯片数量减少50倍以上可以降低互连和网络成本以及功耗。在具有Infiniband、以太网、PCIe和NVLink交换机的NVIDIAGPU集群中,大量的电力和成本花费在重新链接芯片上。Cerebras通过将整个芯片保持在一起来解决这个问题。凭借WSE-3,Cerebras可以继续生产世界上最大的单芯片。它呈正方形,边长为21.5厘米,几乎使用整个300毫米硅片来制造一个芯片。

你可以在WSE芯片的相继推出中看到摩尔定律的作用。第一个于2019年首次亮相,采用台积电的16纳米技术制造。对于2021年推出的WSE-2,Cerebras转而采用台积电的7纳米工艺。WSE-3采用这家代工巨头的5纳米技术制造。

自第一个巨型芯片问世以来,晶体管的数量增加了两倍多。与此同时,它们的用途也发生了变化。例如,芯片上的人工智能核心数量已显着趋于平稳,内存量和内部带宽也是如此。尽管如此,每秒浮点运算(flops)方面的性能改进已经超过了所有其他指标。


需要注意的一点是,Cerebras使用片上内存,而不是NVIDIA的封装内存,因此我们不会以H100上的80GBHBM3为例。


最新的Cerebras软件框架为PyTorch2.0和最新的AI模型和技术(如多模态模型、视觉转换器、专家混合和扩散)提供原生支持。Cerebras仍然是唯一为动态和非结构化稀疏性提供本机硬件加速的平台,将训练速度提高了8倍。

您可能已经看到Cerebras表示其平台比NVIDIA的平台更易于使用。造成这种情况的一个重要原因是Cerebras存储权重和激活的方式,并且它不必扩展到系统中的多个GPU,然后扩展到集群中的多个GPU服务器。


除了代码更改很容易之外,Cerebras表示它的训练速度比MetaGPU集群更快。当然,目前这似乎是理论上的CerebrasCS-3集群,因为我们没有听说有任何2048个CS-3集群启动并运行,而Meta已经有了AIGPU集群。


总体而言,这里发生了很多事情,但我们知道的一件事是,如今越来越多的人使用基于NVIDIA的集群。

CerebrasSystems进一步指出,由于每个组件都针对AI工作进行了优化,CS-3比任何其他系统都能以更小的空间和更低的功耗提供更高的计算性能。虽然GPU功耗逐代翻倍,但CS-3的性能翻倍,功耗却保持不变。CS-3具有卓越的易用性,与适用于大模型的GPU相比,CS-3需要的代码减少97%,并且能够在纯数据并行模式下训练从1B到24T参数的模型。GPT-3大小的模型的标准实现在Cerebras上只需要565行代码——这同样也是行业记录。

一个庞大的系统,冷却超乎想象

CerebrasCS-3是第三代WaferScale系统。其顶部具有MTP/MPO光纤连接,以及用于冷却的电源、风扇和冗余泵。

CerebrasSystems在新闻稿中指出,如上所述,CS-3拥有高达1.2PB的巨大内存系统,旨在训练比GPT-4和Gemini大10倍的下一代前沿模型。24万亿参数模型可以存储在单个逻辑内存空间中,无需分区或重构,从而极大地简化了训练工作流程并提高了开发人员的工作效率。在CS-3上训练一万亿参数模型就像在GPU上训练十亿参数模型一样简单。

CS-3专为满足企业和超大规模需求而打造。紧凑的四系统配置可以在一天内微调70B模型,而使用2048个系统进行全面调整,Llama70B可以在一天内从头开始训练——这对于生成AI来说是前所未有的壮举。


Cerebras需要为巨型芯片提供电力、数据和冷却,同时还要管理相对较大区域的热膨胀等问题。这是该公司的另一项重大工程胜利。芯片内部采用液体冷却,热量可以通过风扇或设施水排出。

该系统及其新芯片在相同的功耗和价格下实现了大约2倍的性能飞跃。从第一代的16纳米到如今的5纳米,Cerebras从每个工艺步骤中都获得了巨大的优势。


与具有八个NVIDIAH100GPU以及内部NVSwitch和PCIe交换机的NVIDIADGXH100系统相比,它只是一个更大的构建块。


这是带有Supermicro1U服务器的CS-3。


这是另一个使用Supermciro1U服务器拍摄的Cerebras集群。Cerebras通常使用AMDEPYC来获得更高的核心数量,这可能是因为Cerebras团队的很多成员来自被AMD收购的SeaMicro。


我们在这次迭代中注意到的一点是,Cerebras也有HPE服务器的解决方案。这有点奇怪,因为一般来说,SupermicroBigTwin比HPE的2U4节点产品领先一步。


看待CerebrasCS-2/CS-3的一种方式是,它们是巨大的计算机器,但许多数据预处理、集群级任务等都发生在传统的x86计算上,以提供优化的人工智能芯片。


由于这是一个液冷数据中心,因此风冷HPE服务器配备了来自Legrand子品牌ColdLogik的后门热交换器设置。

这是Cerebras如何利用液冷设施的一个很好的例子,但它不必为每个服务器节点配备冷板。

这一代的一大特点是更大的集群,多达2048个CS-3,可实现高达256exaFLOPs的AI计算。


12PB内存是一款高端超大规模SKU,专为快速训练GPT-5尺寸模型而设计。Cerebras还可以缩小到类似于单个CS-2的规模,并支持服务器和网络。


部分内存不仅是片上内存(44GB),还包括支持服务器中的内存。


因此,Cerebras集群可以训练比以前更大的模型。


关于整个系统,在SC22的时候,该公司就曾基于CerebrasCS-2的系统展示了看起来像一堆金属的东西,其中有一些印刷电路板伸出来。该公司称其为发动机组(EngineBlock)。在Cerebras看来,这是一项巨大的工程壮举。弄清楚如何封装、供电和冷却大型芯片是一个关键的工程挑战。让代工厂制造特殊的晶圆是一回事,让晶圆开机、不过热并做有用的工作是另一回事。


这是另一边的样子。


当我们谈论由于密度而必须转向液体冷却的服务器时,我们谈论的是2kW/U服务器或可能具有8x800W或8x1kW部件的加速器托盘。对于WSE/WSE-2,所有电力和冷却都需要传输到单个大晶圆上,这意味着即使是不同材料的热膨胀率等因素也很重要。另一个含义是,实际上该组件上的所有部件都采用液冷方式。


最上面一排木板非常密集。展位上的Cerebras代表告诉我,这些是电源,这是有道理的,因为我们看到它们的连接器密度相对较低。


CerebrasCondorGalaxy的更新

在去年七月,Cerebras宣布其CS-2系统取得重大胜利。它拥有一台价值1亿美元的人工智能超级计算机,正在与阿布扎比的G42一起使用。这里的关键是,这不仅仅是一个IT合作伙伴,也是一个客户。


当前的第一阶段有32个CS-2和超过550个AMDEPYC7003“Milan”CPU(注:Cerebras首席执行官AndrewFeldman告诉我他们正在使用Milan),只是为了向CerebrasCS-2提供数据。如今,32个GPU相当于四个NVIDIADGXH100系统,而32个CerebrasCS-2就像32个NVIDIADGXH100集群,每个集群都位于单个芯片上,并在大芯片上进行互连。这更像是数百个(如果不是更多)DGXH100系统,而这只是第一阶段。


在第二阶段,加利福尼亚州圣克拉拉/科洛沃的安装量预计将在10月份增加一倍。


除了CondorGalaxy1,还有另一个集群,即CondorGalaxy2,现已在G42上启动并运行。


新的CondorGalaxy3是达拉斯集群,它将使用新的5nmWSE-3和CS-3进行计算。

据介绍,CondorGalaxy3将由64个CS-3系统构建,产生8exaFLOP的AI计算,这是世界上最大的AI超级计算机之一。CondorGalaxy3是CondorGalaxy网络中的第三个安装。CerebrasG42战略合作伙伴关系旨在提供数十exaFLOPs的人工智能计算能力。CondorGalaxy训练了一些业界领先的开源模型,包括Jais-30B、Med42、Crystal-Coder-7B和BTLM-3B-8K。


这些是目前位于美国圣克拉拉、斯托克顿和达拉斯的集群,他们计划是再建造至少六个。


这些集群的总价值应超过10亿美元,并于2024年完工。除了10亿美元的交易价值外,Cerebras告诉我们,它们目前供应有限,因此对WSE-3的需求是存在的。


值得一提的是,虽然Cerebras专注于推理训练,但它宣布与高通建立合作伙伴关系,以使用高通的传统人工智能推理加速器。


虽然Cerebras计算机是为训练而构建的,但Cerebras首席执行官安德鲁·费尔德曼(AndrewFeldman)表示,推理、神经网络模型的执行才是人工智能采用的真正限制。据Cerebras估计,如果地球上每个人都使用ChatGPT,每年将花费1万亿美元,更不用说大量的化石燃料能源了。(运营成本与神经网络模型的规模和用户数量成正比。)

因此,Cerebras和高通建立了合作伙伴关系,目标是将推理成本降低10倍。Cerebras表示,他们的解决方案将涉及应用神经网络技术,例如权重数据压缩和稀疏性(修剪不需要的连接)。该公司表示,经过Cerebras训练的网络将在高通公司的新型推理芯片AI100Ultra上高效运行。

写在最后

CerebrasWaferScaleEngine系列仍然是一项出色的工程设计。此次发布的一个重要内容是5nmWSE-3已经问世。最酷的事情之一是Cerebras从流程进步中获得了巨大的进步。

我们知道AMDMI300X今年的收入将轻松超过10亿美元。Cerebras预计收入将超过10亿美元,假设它正在销售整个集群,而不仅仅是价值数百万美元的CS-3盒子。NVIDIA将于下周在GTC上详细讨论NVIDIAH200和下一代NVIDIAB100时出售10亿美元的硬件。我们将收到英特尔Gaudi3的最新消息,但我们已经听到一些人分享了2024年九位数的销售预测,Cerebras可能是唯一一家专注于培训、在收入方面与大型芯片制造商竞争的公司。

“八年前,当我们开始这一旅程时,每个人都说晶圆级处理器是一个白日梦。我们非常自豪能够推出第三代突破性水平的人工智能芯片。”Cerebras首席执行官兼联合创始人AndrewFeldman)说道。“WSE-3是世界上最快的AI芯片,专为最新的尖端AI工作而设计,从专家混合到24万亿个参数模型。我们很高兴将WSE-3和CS-3推向市场,以帮助解决当今最大的人工智能挑战。”

让我们期待Cerebras2025年下半年发布WSE-4带来的惊喜。

参考链接

https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

https://www.hpcwire.com/off-the-wire/cerebras-systems-unveils-worlds-fastest-ai-chip-with-whopping-4-trillion-transistors/

https://spectrum.ieee.org/cerebras-chip-cs3

https://www.tomshardware.com/tech-industry/artificial-intelligence/cerebras-launches-900000-core-125-petaflops-wafer-scale-processor-for-ai-theoretically-equivalent-to-about-62-nvidia-h100-gpus

责任编辑:站长云网