您的位置:主页 > 公告动态 > 国王金融动态 > 国王金融动态

干掉HBM?-国际黄金

AI离不开HBM,这种看法正在不停深入人心。

对于AI大模子训练来说,大量并行数据处置要求大算力和高带宽,算力决议了每秒处置数据的速率越快,而带宽决议了每秒可接见的数据,GPU认真提供算力,而存储器认真提供带宽。

现在的事态是,人人可以不用英伟达的GPU,但*离不开海力士、三星或美光的HBM,英伟达虽然有CUDA这条护城河,但也不能完全阻止用户迁徙向其他厂商,但HBM就差异了,岂论是AMD照样英特尔,照样其他定制芯片,上面无一破例都嵌着密密麻麻的HBM。

但HBM并不是通俗DRAM,它的价钱早已到了一个令人咋舌的境界,在相同密度的情形下,HBM 的价钱约莫是DDR5的5倍,据领会,现在HBM成本在AI服务器成本中占比排名第三,约占9%,单机平均售价高达18000美元。

即即是云云昂贵的HBM,依旧处于求过于供的状态,还在不停涨价。TrendForce在今年5月示意,2025年HBM订价谈判已于2Q24开启,但由于DRAM整体产能有限,供应商已开端涨价5~10%以治理产能限制,影响局限涵盖HBM2e、HBM3与HBM3e。

其指出,从各大AI方案商来看,HBM规格需求将显著朝HBM3e转移,12Hi堆叠产物预期将会增添,将动员单颗芯片HBM容量提升,预估2024年HBM需求年增率将迫近200%,2025年则有望再翻一番。

掏的起钱的巨头会继续加价买更大容量的HBM,但对于中小型厂商来说,昂贵的HBM已经成为了它们踏上大模子之路后的*阻碍。

谁会给昂贵的AI内存解围呢?

01 硅仙人,要把内存价钱打下来

“硅仙人”吉姆·凯勒(Jim Keller)曾不止一次指斥了现在AI芯片的昂贵价钱。

吉姆·凯勒是谁?他的职业生涯横跨 DEC、AMD、SiByte、Broadcom、PA Semi、Apple、Tesla、Intel,从AMD的K8架构,到苹果的A4和A5处置器,再到AMD的Zen架构,最后是特斯拉的FSD自动驾驶芯片,背后都有着这位大神的身影。

而在2021年,他脱离了英特尔,加入了位于加拿大多伦多的AI芯片初创公司Tenstorrent,担任这家公司的CTO,认真开发下一代AI芯片。

凯勒一直致力于解决人工智能硬件成本高昂的问题,将其视为 Tenstorrent 等初创公司挑战 英伟达等巨头的切入点。他曾提出,英伟达在开发 Blackwell GPU 时,若是使用以太网互连手艺,本可以节约 10 亿美元。

“有许多市场没有获得英伟达的优越服务,”凯勒在接受日经亚洲采访时示意,随着 AI 在智能手机、电动汽车和云服务中的应用不停扩大,越来越多的公司在寻找更廉价的解决方案,他提到,“有许多小公司不愿意支付 20000 美元购置市场上被以为是*选择的英伟达高端GPU。”

Tenstorrent正准备在今年年底出售其第二代多功效 AI 芯片。该公司示意,在某些领域,其能效和处置效率优于英伟达的 AI GPU。据 Tenstorrent 称,其 Galaxy 系统的效率是英伟达AI 服务器 DGX 的三倍,且成本降低了 33%。

凯勒示意,这一成就的缘故原由之一是公司不使用高带宽内存(HBM),这种先进的内存芯片能够快速传输大量数据。HBM 是天生型 AI 芯片的主要组件,在英伟达产物的乐成中施展了主要作用。

然而,HBM 也是 AI 芯片高能耗和高价钱的罪魁罪魁之一。“纵然是使用 HBM 的人也在与其成本和设计时间作斗争,”凯勒说道,因此,他做出了不使用这项手艺的手艺决议。

在典型的 AI 芯片组中,GPU 每次执行历程时都市将数据发送到内存。这需要 HBM 的高速数据传输能力。然而,Tenstorrent 稀奇设计了其芯片,大幅削减此类传输。凯勒示意,通过这种新方式,公司设计的芯片在某些 AI 开发领域可以替换 GPU 和 HBM。

他还示意,公司正在尽可能地设计其产物以实现“成本效益”。他弥补说,许多其他公司也在寻找更好的内存解决方案,但他郑重地认可,推翻现有的重大 HBM 产业需要数年时间。

凯勒展望,将会有更多新玩家泛起,填补英伟达未能服务的种种 AI 市场,而不是由某一家公司取代英伟达。

值得一提的是,Tenstorrent首席CPU架构师此前也分享了类似的看法,他强调该公司更务实、更经济的精神使其系统设计比Nvidia更具成本效益,盘算能力更强。

他示意:"客户不需要支付保时捷或法拉利的价钱来运行他们的天生式人工智能模子,他们只需要性价比最高、运行速率最快的汽车。" Lien 预计,现在硬件价钱昂贵的趋势将逐渐消退,市场最终将趋于稳固。

对于吉姆·凯勒来说,过于昂贵的HBM似乎已经阻碍到了AI的生长,只管大公司有雄厚的财力来肩负这一切,但小公司早就难以为继,而他认真的Tenstorrent芯片,就是为领会决这一问题而来的。

02 无需HBM的AI芯片?

2020年5月,Tenstorrent 推出了自己*产物—— Grayskull,这是一款基于 GF 12nm 工艺,约 620 平方毫米的处置器,最初设计为推理加速器和主机。它包罗 120 个定制焦点,接纳 2D 双向网格结构,提供 368 TeraOPs 的 8 位盘算能力,功耗仅为 65 瓦。每个定制焦点都配备了数据控制的担保理引擎、包罗 Tenstorrent 自界说 TENSIX 焦点的包盘算引擎,以及用于非尺度操作(如条件语句)的五个 RISC 焦点。该芯片偏重于希罕张量运算,将矩阵运算优化为压缩数据包,通过图形编译器和数据担保理器实现盘算步骤的流水线并行化。这也实现了动态图形执行,与其他一些人工智能芯片模子相比,它允许盘算和数据异步传输,而不是特定的盘算/传输时间域。

今年3月,Tenstorrent最先销售基于Grayskull的两款开发板。Tenstorrent示意,Grayskull e75 和 e150是 Tenstorrent 的基础、仅用于推理的 AI 图形处置器,每个都接纳 Tensix Cores 构建,包罗一个盘算单元、片上网络、内陆缓存和“小型 RISC-V”焦点,从而在芯片中实现怪异高效的数据移动,专为追求经济高效、可定制的传统 GPU 替换方案的冒险型 ML 开发职员而设计。

其中Grayskull e75是一款75瓦的PCIe Gen 4卡,售价为600美元,其拥有一颗1GHz的NPU芯片,集成了96颗Tensix焦点和96MB的SRAM,该板还包罗8GB的尺度LPDDR4 DRAM,而Grayskull e150将时钟频率提高到1.2GHz,焦点数目增添到120个,片上内存响应增添到120MB,但片外DRAM仍为8GB的LPDDR4,其功耗提升至200瓦,售价800美元,

据领会,Tenstorrent Grayskull架构差异于其他数据中央AI加速器(GPU/NPU),排列的Tensix焦点包罗多个CPU,供盘算单元使用,后者包罗向量和矩阵引擎。这种结构化的颗粒方式可以增添数学单元的行使率,从而提高每瓦性能。每个Tensix焦点还具有1MB的SRAM,提供了足够的片上内存总量,与其他大内存的NPU差异,Grayskull可以毗邻到外部内存。

固然最主要的照样,Grayskull使用尺度DRAM而不是昂贵的HBM,仅这一项,就省去了一泰半成本,这也相符吉姆·凯勒所提到的追求成本效益的目的。

爆火的低价外卖,是预制菜「重灾区」?

软件是NPU和其他处置器挑战者的一个微弱环节,也是Grayskull与竞争对手相比的一个强项。Tenstorrent为此提供两种软件流程:TT-Buda基于尺度AI框架(如PyTorch和TensorFlow)将模子映射到Tenstorrent硬件上,而TT-Metalium则为开发职员提供直接的硬件接见,并允许他们确立用于更高级框架的库。在Grayskull架构的支持下,Metalium因提供类似盘算机的编程模子而脱颖而出,并可能吸引拥有低级编程资源的客户。

此外,从一最先,Tenstorrent就将功耗效率作为一个差异化因素,e75相对较低的75瓦,相符尺度PCIe和OCP功率局限,像这样的设计可能是一个很好的服务器附加板,用于推理领域。除了Grayskull芯片和板卡外,Tenstorrent还最先授权其高性能RISC-V CPU和Tensix焦点,并与互助同伴配合开发Chiplets。

固然,这只是一个最先,在吉姆·凯勒加盟后,Tenstorrent的野心最先变得更大。

今年7月,Tenstorrent推出了新一代Wormhole处置器,专为AI事情负载设计,答应以低价提供不错的性能。该公司现在提供两种附加的PCIe卡,划分搭载一个或两个Wormhole处置器,另有TT-LoudBox和TT-QuietBox事情站,专为软件开发职员设计。此次宣布主要面向开发职员,而非那些将Wormhole板用于商业事情负载的用户。

Tenstorrent首席执行官吉姆·凯勒示意:“让更多产物进入开发者手中总是令人感应知足的。宣布搭载Wormhole卡的开发系统有助于开发职员举行多芯片AI软件的扩展和开发事情。除了此次宣布之外,我们也很喜悦第二代产物Blackhole的流片和启动希望顺遂。”

每个Wormhole处置器配备72个Tensix焦点(包罗五个支持种种数据花样的RISC-V焦点),拥有108MB的SRAM,以1GHz频率提供262 FP8 TFLOPS的性能,功耗为160W。单芯片Wormhole n150卡配备12GB的GDDR6内存,带宽为288GB/s。

Wormhole处置器提供天真的可扩展性,以知足种种事情负载的需求。在尺度事情站设置中,四张Wormhole n300卡可以合并为一个单元,在软件中显示为一个统一的、普遍的Tensix焦点网络。该设置允许加速器处置相同的事情负载、分配给四个开发职员或同时运行多达八个差其余AI模子。这种可扩展性的一个要害特征是它可以原生运行,无需虚拟化。在数据中央环境中,Wormhole处置器可以通过PCIe在一台机械内部扩展,也可以通过以太网在多台机械之间扩展。

从性能角度来看,Tenstorrent的单芯片Wormhole n150卡(72个Tensix焦点,1GHz,108MB SRAM,12GB GDDR6,带宽为288GB/s)在160W功耗下提供262 FP8 TFLOPS,而双芯片Wormhole n300板(128个Tensix焦点,1GHz,192MB SRAM,24GB GDDR6,带宽为576GB/s)在300W功耗下可提供高达466 FP8 TFLOPS(凭证Tom's Hardware的数据)。

与英伟达的产物相比,英伟达的A100不支持FP8,但支持INT8,峰值性能为624 TOPS(希罕时为1,248 TOPS),而英伟达的H100支持FP8,峰值性能高达1,670 TFLOPS(希罕时为3,341 TFLOPS),这与Tenstorrent的Wormhole n300相比有很大差距。

不外价钱又填补了性能上的不足,Tenstorrent的Wormhole n150售价为999美元,而n300售价为1,399美元。相比之下,一张英伟达H100卡的售价可能高达30,000美元。

除了板卡外,Tenstorrent还为开发者提供预装四张n300卡的事情站,包罗价钱较低的基于Xeon的TT-LoudBox和高端的基于EPYC的TT-QuietBox。

岂论是Grayskull照样Wormhole,都只是Tenstorrent蹊径图里的*步,真正的重头戏还在后面。

凭证Tenstorrent披露的蹊径图,第二代架构Blackhole 芯片有 140 个 Tensix 内核,以及更多的 DRAM 和更快的以太网,同时具备16 个 RISC-V 内核,自力于 Tensix 内核,可以脱离x86 CPU来运行操作系统,其已在台积电 N6 上流片并希望顺遂。

而Tenstorrent 的第三代架构将基于芯片组,并将迁徙到三星 SF4,其包罗Quasar 和 Grendel ,将接纳更新的 Tensix 焦点,目的是将四个 Tensix 焦点与共享的 L2 群集在一起,以便更好地重用内存中已有的权重,它们预计将于 2025 年推出。

固然,蹊径图中后续的三款芯片,都没有接纳HBM,而是选择了GDDR6,Tenstorrent和吉姆·凯勒都有一个目的,那就是打破HBM这个昂贵的神话。

03 曲线救国的小众方案

Tenstorrent并不是*一个想要用其他内存替换HBM的公司。

2024年2月,谷歌TPU*代设计者Jonathan Ross所确立的Groq公司正式宣布,其新一代LPU在多个公然测试中,以险些*的价钱,相比GPU推理速率翻倍,后续有三方测试效果解释,该芯片对大语言模子推理举行优化效果显著,速率相较于英伟达GPU提高了10倍。

凭证知情人士透露,LPU的事情原理与GPU截然差异。它接纳了时序指令集盘算机(Temporal Instruction Set Computer)架构,这意味着它无需像使用高带宽存储器(HBM)的GPU那样频仍地从内存中加载数据。Groq选择了SRAM,其速率比GPU所用的存储器快约20倍,这一特点不仅有助于阻止HBM欠缺的问题,还能有用降低成本。

有从事人工智能开发的用户赞美,Groq是追求低延迟产物的“游戏规则改变者”,低延迟指的是从处置请求到获得响应所需的时间。另一位用户则示意,Groq的LPU在未来有望对GPU在人工智能应用需求方面实现“革命性提升”,并以为它可能成为英伟达A100和H100芯片的“高性能硬件”的有力替换品。

但Groq并非没有瑕玷,其选择SRAM的主要理由,是由于它只认真推理、不训练,而推理所需要的存储空间比训练要小得多,以是Groq的单板卡只有230MB的内存,虽然SRAM确实要比DRAM快,但其价钱很贵,容量较小,LPU甚至其他盘算芯片,大量使用SRAM时需要有所权衡。

2012 年在加利福尼亚州圣何塞确立的NEO Semiconductor则是提出了自己的HBM替换方案,克日,该公司宣布,自己开发出了带有附加神经元电路的三维 DRAM,通过阻止从高带宽内存到 GPU 的数据传输,可以加速 AI 处置。

据领会,Neo 的3D DRAM 手艺是其 3D X-AI 300 层、128 Gbit DRAM 芯片的基础,每个芯片有 8,000 个神经元和 10 TBps 的 AI 处置能力。3D X-AI 芯片的容量和性能可以扩展 12 倍,最多可堆叠 12 个 3D X-AI 芯片,就像高带宽内存 (HBM) 一样,提供 192 GB (1,536 Gb) 的容量和 120 TBps 的处置吞吐量。

NEO Semiconductor 首创人兼首席执行官 Andy Hsu 在一份声明中示意:“典型的 AI 芯片使用基于处置器的神经网络。这涉及连系高带宽内存来模拟突触以存储权重数据,以及图形处置单元 (GPU) 来模拟神经元以执行数学盘算。性能受到 HBM 和 GPU 之间数据传输的限制,往返的数据传输会降低 AI 芯片的性能并增添功耗。”

3D X-AI 模拟人工神经网络 (ANN),包罗用于存储重量数据的突触和用于处置数据的神经元,Neo 示意这使其异常适合加速下一代 AI 芯片和应用,Hsu 弥补道:“带有 3D X-AI 的 AI 芯片使用基于内存的神经网络。这些芯片具有神经网络功效,每个 3D X-AI 芯片中都有突触和神经元。它们用于大幅削减执行 AI 操作时 GPU 和 HBM 之间数据传输的繁重事情量。我们的发现大大提高了 AI 芯片的性能和可连续性。”

此前,SK海力士和三星等NAND供应商已经实验过盘算内存,但用例太小众,不足以证实大规模生产是合理的,而Neo 希望 AI 处置能够变得云云普及,从而远远逾越这种小众征象,其示意,3D X-AI 芯片可与尺度 GPU 一起使用,可以以更低的成本提供更快的 AI 处置。

04 HBM,并非稳如泰山?

对于内存厂尤其是SK海力士来说,HBM是在坚持多年后获得的一笔意外之财,事实上,就连行业*了三十余年的三星都泛起了误判,在AI浪潮来临的前夜错失了时机。

HBM因AI而兴,在大模子中饰演着不能或缺的角色,这是毋庸置疑的,但HBM也在面临着种种挑战,尤其是更多具备成本优势的方案在不停涌现,若是HBM不能通过其他方式来降低成本,它未来的职位就生怕有点危险了。