4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

刚刚，芯片创业公司 Cerebras 宣布了该公司历史上最重要的消息，「我们发布了世界上最快的芯片，该芯片拥有高达 4 万亿个晶体管。」

一直以来，Cerebras 一直在往「大」的芯片方面发展，此前他们发布的晶圆级引擎（Wafer Scale Engine，WSE-1）面积比 iPad 还大。第二代 WSE-2 虽然在面积上没有变化，但却拥有惊人的 2.6 万亿个晶体管以及 85 万个 AI 优化的内核。

而现在推出的 WSE-3 包含 4 万亿个晶体管，在相同的功耗和价格下，WSE-3 的性能是之前记录保持者 WSE-2 的两倍。

此次发布的 WSE-3 是专为训练业界最大的 AI 模型而打造的，基于 5 纳米、4 万亿晶体管的 WSE-3 将为 Cerebras CS-3 人工智能超级计算机提供动力，通过 90 万个人工智能优化的计算核心，提供每秒 125 petaflops 峰值 AI 性能（1 petaflops 是指每秒 1,000,000,000,000,000（1 万亿）次浮点运算）。

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

WSE-3 呈正方形，边长为 21.5 厘米（面积为 46225mm^2），几乎是使用了整个 300 毫米硅片来制造一个芯片。这么看来，凭借 WSE-3，Cerebras 可以继续生产世界上最大的单芯片了。

WSE-3 大尺寸到底是个什么概念，在将其与 Nvidia H100 GPU 进行比较后发现，前者大了 57 倍，内核数量增加了 52 倍，芯片内存增加了 800 倍，内存带宽增加了 7000 倍，结构带宽增加了 3700 倍以上。而这些都是芯片实现高性能的基础。

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

图源：https://spectrum.ieee.org/cerebras-chip-cs3

下图展示了 WSE-3 的特点：

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

WSE-3

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

前两代晶圆级引擎的一些参数。图源：https://twitter.com/intelligenz_b/status/1768085044898275534

配备 WSE-3 的 CS-3 计算机理论上可以处理 24 万亿个参数的大型语言模型，这比 OpenAI 的 GPT-4 等顶级生成式 AI 模型的参数高出一个数量级（据传有 1 万亿个参数）。这么看来，具有 24 万亿个参数的模型在一台机器上运行成为可能。

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世

图源：https://www.servethehome.com/cerebras-wse-3-ai-chip-launched-56x-larger-than-nvidia-h100-vertiv-supermicro-hpe-qualcomm/

CS-3 拥有高达 1.2 PB 的巨大内存系统，旨在训练比 GPT-4 和 Gemini 还大 10 倍的下一代前沿模型。24 万亿个参数的模型可以存储在单个逻辑内存空间中，无需分区或重构，从而极大地简化了训练工作流程并提高了开发人员的工作效率。在 CS-3 上训练 1 万亿个参数模型就像在 GPU 上训练 10 亿个参数模型一样简单。

4万亿个晶体管，单机可训练比GPT4大10倍的模型，最快最大的芯片面世