英伟达挑战者出现：单芯片性能与160块H100 GPU相当，且每秒生成Token数快20

ylyl007 · 发表于 2024-7-16 21:17:00|来自：亚太地区

图片来源：Etched
出品 | 搜狐科技
作者 | 王一鸣
人工智能时代，芯片就是AI的发动机，然而制造发动机的英伟达H100芯片单价高达2.5-3万美元，让人不禁感叹这芯片是金子做的吗？
巨大的利益前，就会有其他抢食者出现。
Etched是一家专注于transformer架构芯片初创公司，刚刚推出了自己第一块AI芯片“Sohu”，它是一种专用的集成电路（ASIC），声称在AI大语言模型（LLM）推理方面击败了英伟达的H100。
由于它是ASIC，所以Etched需要把transformer架构刻蚀在芯片上，也就意味着它们不能运行大多数传统的AI模型：比如Instagram广告提供支持的DLRM、Alpha Fold 2等这样的蛋白质折叠模型或Stable Diffusion 2等这样的老式的图像模型，还有CNN、RNN或LSTM。
但是对于transformer架构来说，Sohu就是有史以来最快的芯片，与其他产品拉开巨大差距。
Etched为此下赌注，SSM、RWKV或任何新架构不会取代transformer架构，不然他们的芯片就直接失去存在的意义。目前最先进的AI模型都是transformer架构，比如ChatGPT、Sora、Gemini、Stable Diffusion 3和DALL-E等。
Etched认为，如果他们的选择正确，Sohu将改变世界。
据悉，8xSohu服务器的性能相当于160块英伟达H100 GPU，而且快20倍。要知道英伟达最新发布的Blackwell B200 GPU也仅仅只是比H100快4倍，也就是说一个8xSohu服务器比B200还要快10倍。

根据上图所示，一台8xSohu服务器在运行Llama 70B模型时每秒可以产生超过50万tokens，是8xH100服务器的20倍以上，也是8xH100服务器的10倍以上
随着摩尔定律失效，这导致GPU的性能是通过增加芯片面积而提升的，近四年来芯片单一面积计算量（TFLOPS）几乎没有变化，这被Etched称为“圣克拉拉的肮脏小秘密”。（圣克拉拉是英伟达、英特尔和AMD等芯片厂商所在地）

Etched宣称，2022年到2025年以来，AI芯片并没有真正变得更好，而是变得更大了。英伟达B200、AMD MI300、Intel Gaudi 3和Amazon Trainium 2都殊途同归地把芯片合二为一拼接起来，以“翻倍”性能。但代价是什么？功耗！
随着摩尔定律的放缓，提高性能的唯一方法就是专业化。
在此之前，没有公司涉猎特定算法人工智能芯片（ASIC），因为没有市场，而且芯片项目的成本为5000万-1亿美元，需要数年时间才能量产。
随后ChatGPT推出，所有大型科技公司都使用transformer模型，包括OpenAI，谷歌，亚马逊，微软，Meta，特斯拉等。
自GPT-2以来，最先进的模型架构几乎都在用Transformer。Etched算了一笔账，当模型的训练成本为10亿美元，推理成本为100亿美元的时候，必须要用专用芯片。哪怕是1%的提升，也足以证明定制芯片项目对于整个产业规模的颠覆。

Transformer惊人地相似：SwiGLU激活和RoPE编码这样的微调无处不在：LLM、嵌入模型、图像修复和视频生成。
虽然GPT-2和Llama-3是相隔五年最先进的（SoTA）模型，但它们的架构几乎相同，只是规模不同。
比肩160块英伟达H100 GPU的巨大算力
Sohu作为全球第一款Transformer ASIC芯片，单个8xSohu服务器可与160块英伟达H100 GPU相抗衡。
通过专业化，一台8xSohu服务器每秒可以处理超过50万个Llama 70B tokens。
其中基准测试（俗称跑分）适用于FP8精度的Llama-3 70B：无稀疏性（指在计算中无不必要,没用的计算），8倍模型并行，2048输入/128输出长度。
使用8xH100s与TensorRT-LLM 0.10.08（最新版本）计算，位数8xGB200。
无论是Llama还是Stable Diffusion 3，Sohu只支持transformer架构的推理。Sohu支持当前包含谷歌，Meta，微软，OpenAI，Anthropic等的所有模型，并且还会对今后模型做出适配调整。
鉴于Sohu只能运行一种算法，于是大多数的控制流逻辑都可以去除，让它有更多的数学公式块，从而Sohu达成超过90%的FLOPS（浮点运算）利用率。相比之下，GPU在TRT-LLM语言模型下的FLOPS利用率大约为30%。
Sohu怎么跑这么高的分？
英伟达H200在精度为FP16/BF16的情况下具有989 TFLOPS的计算能力（无稀疏性）。这是最先进的（甚至超过了谷歌最新的Trillium芯片），而2025年英伟达将要推出的GB200芯片的计算能力仅增加了25%（每个芯片1250 TFLOPS）.
由于GPU大部分区域都是可编程的，专注于transformer可以拥有更高的计算能力。
第一原理可以证明：
构建单个FP16/BF16/FP8乘加电路需要1万个晶体管，这是所有矩阵数学运算的组成部分。H100 SXM有528个张量核心，每个核心都有4×8×16 FMA电路。这些乘法意味着H100有27亿个晶体管专用于张量内核。
但是H100只有800亿个晶体管。这意味着H100 GPU上只有3.3%的晶体管可用于矩阵乘法。
英伟达和其他芯片厂商是特意这样设计的，这些芯片是支持CNN、LSTM、SSM等各种模型里面中最好的选择。
假如只运行transformers，Etched能让芯片能跑更高的FLOPS，而且不需要降低的精度或稀疏性。
内存带宽不再限制性能
Etched表示，对于像Llama-3这样的现代模型来说，内存带宽早就没有瓶颈问题了。
在NVIDIA和AMD的标准基准测试中包含2048个输入tokens和128个输出tokens，大多数AI产品的prompts（提示）时间比完成时间要长，就算是新的Claude聊天机器人在系统prompts中也有1000多tokens。
在GPU和Sohu上，推理是分batch运行的。每个batch都需要加载一次所有模型权重，并在batch中每个tokens之间重复使用。通常来说LLM输入受计算瓶颈限制，LLM输出受内存瓶颈限制。如果把输入和输出的tokens与连续batching相结合，工作负载变得特别受计算瓶颈限制。
下图为LLM连续batching处理示例，在这里运行具有4个输入tokens和4个输出tokens的序列，不同颜色表示不同序列。

通过扩展相同的技巧来运行拥有2048个输入tokens和128个输出tokens的Llama 3 70B。每个批次都包含一个序列的2048个输入tokens和127个不同序列的127个输出tokens。
这样做的话单个batch将需要大约(2048+127)×70B params×2字节/param=304 TFLOPs，与此同时只需要加载70B params×2字节/param=140GB的模型权重和大约127×64×8×128×(2048+127)×2×2=72GB的KV缓存权重。
这比内存带宽的计算量要大得多：H200需要6.8 PFLOPS的计算才能最大化它的内存带宽。这还是在100%利用率的情况下，如果利用率只有30%，那就要3倍以上了。
Etched表示，因为Sohu计算能力和的利用率非常高，所以他们可以在不出现内存带宽瓶颈的情况下运行巨大吞吐量的数据。
软件运行原理
软件对于GPU和TPU来说是个灾难。处理任意CUDA和PyTorch代码需要特别复杂的编译器。第三方AI芯片比如AMD、英特尔、AWS等在软件上花费了数十亿美元，但效果并不理想。
同时Etched自豪的表示，使用transformers的Sohu只需要针对transformers编写软件。
大多数运行开源或内部模型的公司都使用特定于Transformer的推理库，比如TensorRT-LLM、vLLM或Hugging Face的TGI。但这些框架非常固化，虽然模型超参数可以调整，但底层模型代码不能更改。
其实所有的Transformer模型都非常相似（甚至是文本/图像/视频模型），只有调整超参数是真正需要的。
虽然95%的AI公司可以接受这种方案，但最大的AI实验室是定制的。他们有工程师团队手动调整GPU内核以压榨出更多的利用率，这样的逆向工程中包含探究哪些寄存器对单独每个张量核心的延迟最低。
Etched表示他们的产品不需要进行逆向工程，从驱动程序、内核到服务堆栈，这些软件全部开源。如果客户想要实现自定义Transformer层，那么内核向导可以随意操作。
作为AI加速器，无论是CPU还是GPU，都需要与不同的AI架构相互进行配合，各其所职。这些不同的框架和设计意味着硬件必须要能够支持各种模型，如卷积神经网络*、长短期记忆网络、状态空间模型等。
*注：卷积神经网络通过卷积、池化等操作，能够大大减少模型参数数量，并保留图像等数据的空间信息，从而提高了识别和分类的精度。
由于这些模型针对不同的架构作出了调整，所以当前的大多数AI芯片把其大部分计算能力分配给可编程性。
大多数LLM在许多计算任务中运用矩阵乘法，Etched预估英伟达的H100 GPU只使了3.3%的晶体管来胜任这种关键任务。也就是说剩余的96.7%的算力去应对其他任务，这对于通用AI芯片来说仍然是必不可少的。
Etched在几年前启动Sohu项目时就对transformer架构下了赌注。他们把transformer架构中的芯片刻蚀在硬件上，以此能让更多晶体管用于AI计算。
如果把处理器和显卡作对比，假设当前的AI芯片是CPU，它可以做很多事情，然后transformer模型就是玩游戏处理图形的GPU。CPU肯定也能处理图形需求，但它不如GPU高效，这就是因为GPU硬件是专门为处理图形设计的。
比起制造一个可以容纳单个AI架构的芯片，Etched选择去构造一个只适用于transformer模型的芯片。2022年他们启动项目时，ChatGPT都还没发布，但在2023年它直接井喷式火爆了起来，这意味着Etched的赌注可以在预见的未来获得回报。
英伟达目前是世界上最有价值的公司之一，自从市场对AI GPU的需求增加，英伟达的净利润创下了历史新高，2023年他们出货了376万块GPU，而且今年还有增长趋势。但Sohu的出现可能会威胁到英伟达在AI领域的地位，特别是如果专门使用transformer模型的公司转用Sohu。
目前，许多专家都会担心人工智能数据中心这样的基础设施消耗太多的能源。Meta创始人马克·扎克伯格（Mark Zuckerberg）表示，电力供应将限制AI的发展，美国政府也开始讨论AI的电力需求。
去年出货的所有GPU消耗的电力超过130万户家庭的电力供应，如果Etched的Sohu能够成功，那么AI所需要的电力能够降低到可接受的水平，随着科技公司的计算需求增长，电网的电力供应也会变得可持续化。

免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

[大学] 英伟达挑战者出现：单芯片性能与160块H100 GPU相当，且每秒生成Token数快20

本帖子中包含更多资源

快速回帖

关于楼主

最新悬赏

交流分类

常用

技术

区块链

十二星座

十二生肖

专属推荐

问答专家