HBM 之战:中国加速破墙,英伟达杀入基础裸片设计

日期:2025-08-18 16:28:22 / 人气:7


HBM(高带宽存储芯片)核心技术,对于 AI 高端芯片、算力供应链及生态,正展现出越来越重要的战略意义。在愈演愈烈的 AI 算力竞赛中,谁能率先突破下一代 HBM 技术,谁就能在未来的 AI 芯片竞争中占据制高点,这对于突破 AI 大模型新前沿以及低成本大规模部署应用,都将起到关键作用。
中国在 HBM(高带宽存储芯片)上的国产替代正在加速推进。长期以来,SK 海力士、三星和美光垄断着这一市场,但如今美国与韩国都认为,中国与它们的技术代差已从 8 年缩短至 4 年。
今年,中国已提前量产 HBM2,似乎直接跳过了 HBM2E;HBM3 样品已于 6 月交付客户,计划年底完成量产验证;若按计划推进,2027 年将轮到 HBM3E,几乎一年一代。
与此同时,三大巨头正迈向 HBM4,这将引领一次技术飞跃。英伟达也已开始自行设计 HBM 的裸芯片部分,预计 2027 年开始量产,这将推动下一代 HBM 在定制化、架构融合化方面的创新,并对整个生态产生深远影响,进一步巩固其在高端 AI 芯片领域的优势地位。
从 8 年缩至 4 年
和 AI 芯片一样,HBM 也是大模型性能的 “卡脖子” 组件,其容量与带宽影响着训练与推理的效率。从 H100 到 GB200,HBM 容量增长了 2.4 倍,带宽增长了 2.6 倍,但模型参数和上下文长度的增长速度更快,使得存储压力有增无减。
缺乏自己的 HBM,就像缺乏自己的先进 AI 芯片一样,困扰着中国 AI 参与全球竞争。去年年底,美国总统拜登在下台前,一方面限制中国 AI 算力企业获取先进 HBM,另一方面限制中国代工企业获取 HBM 相关半导体设备。
当时,中国市场上的主流国产 AI 芯片多搭载内存三巨头提供的 HBM2E,而禁了又解禁的英伟达 H20,已经用上了 HBM3。根据禁令对 “内存带宽密度”(memory bandwidth density)的限定,国内 AI 芯片就连 HBM2E 都用不了了。
反观全球,欧美主流 AI 芯片已全面进入 HBM3E 时代。无论是英伟达的 Blackwell 架构芯片,还是谷歌 TPU v6e,用的都是 HBM3E。SK 海力士的 HBM4 已经发货,下半年量产,即将用于英伟达下一代的 Rubin 架构 AI 芯片。
好消息是,HBM 国产替代的速度快于此前预期。在技术得到市场验证,加之地缘竞争的驱动下,国内的长鑫存储与武汉新芯都在奋起直追。此前,这些企业主要发力 DRAM 技术面向消费电子市场的 DDR 产品。
去年,公开报道还称,国产 HBM2 或在 2026 年形成量产能力。据此,不考虑每一代的变体,中国至少与全球领先水平存在 8 年的代差。而且当时,Techinsights 称,届时即使能够量产,良率(yield ratio)也会在 30% 甚至更低。
形势逼人,今年年初,通富微宣布已开始为客户试产 HBM2。长鑫存储(CXMT)开始研发 HBM3,并计划在明年启动量产。这些消息得到业内的广泛确认。
半导体分析机构 Semianalysis 称,中国 DRAM 国家队的长鑫存储,正在积极扩大 HBM 产能,其中 HBM2 已于今年上半年量产。到年底,与 HBM 先进封装密切相关的 TSV(硅通孔)产能将与美光接近,这是实现 HBM 多层堆叠与高速互连的核心工艺。
同日,韩国媒体报道称,长鑫存储预计在年底完成 HBM3 量产认证,并计划在 2027 年量产 HBM3E。若按此节奏,中国厂商与内存三巨头的时间差将从 8 年缩短至约 4 年,甚至 3 年。
中国厂商的加速度超出了韩国的预期。韩国原以为长鑫存储要到年底才交付样品,但该公司在今年 6 月就完成了这一节点。TechInsights 的数据也显示,去年一季度,内存三巨头的每晶圆位密度(bit density per wafer)仍是长鑫的 1.87 倍,今年一季度已缩至 1.63 倍,预计明年一季度将进一步降至 1.18 倍。
在技术上,中国 HBM 国产替代的跨越式发展并非完全不可能。分析机构 Futurum 分析指出,长鑫存储已能量产 D1y 与 D1z(约 17~13 纳米)节点的 DRAM,既能用于消费电子的 DDR5,也能用于 AI 服务器的 HBM。
年初,长鑫存储宣布 DDR5 量产成功,相对内存三巨头的 DDR5,制造工艺恰好也落后了约四年。Counterpoint 预测,虽然长鑫存储在 DDR5 市场的份额目前只有 1%,但到年底将上升到 7%。这一放量速度,意味着 D1z 的良率问题可能不再是未来量产 HBM3 的负担。
然而,国内市场至少要等到 2026 年,时间差仍然致命。这也解释了为什么近日有媒体称,中美贸易谈判已将 HBM 列为焦点之一。中国进口先进 HBM,短期内满足下游需求,长期又无法挤压上游空间。
内存三巨头正在进入 HBM4 时代,新的技术路径涌现,导致从 HBM3 到 HBM4 的路径,无法简单复制 HBM2 到 HBM3 的成功。对中国 AI 算力生态而言,唯有尽快翻越这道 “内存墙”,并依托上游设备突破与下游芯片适配,才能将国产 HBM 真正嵌入自主的 AI 算力闭环。
最现实的障碍仍然是国产半导体设备无法自给自足。即使是领先的 HBM 企业长鑫存储,半导体设备的国有化率也仅约 20% 左右。更关键的是,随着 HBM3 的真正突破,EUV(极紫外)光刻将再次成为关键的 “卡脖子” 环节。
长鑫存储正在寻求对 D1α 和 D1β(14~13 纳米)的突破,也就是 HBM3E 的关键工艺节点,这将不得不压榨传统光刻的潜力。三巨头在这一阶段已经普遍采用了 EUV 光刻技术。在逻辑芯片领域经历过的一切,似乎又要在 HBM 领域再来一次。而且,能造出来,不意味着好用。三星的 HBM3E 就长期被英伟达 “拒收”。
国产 HBM 的持续成长,依赖下游 AI 芯片厂商,即国内加速芯片厂商的广泛采用。受技术与监管限制,海外客户基本不会采用它。在全球 HBM 客户中,英伟达占 65%、谷歌占 18%,中国芯片厂商仅占 1%。只有中国 AI 芯片厂商需求足够旺盛,才能形成从 HBM 到 AI 芯片再到 AI 算力的闭环。而当前要让中国 AI 芯片足够好用,至少在 2026 年前,它们需要尽可能地接入国产 HBM 的竞争对手的产品体系中。
HBM4 飞跃
就在中国企业奋力攻克 HBM3 时,三巨头正在争夺下一张王牌 ——HBM4。它将是 2026 年推出的下一代数据中心和 AI 芯片的首选标准。
未来,HBM 将不再是标准化产品。为了降低整体的功耗和性能损失,上游 AI 芯片厂商纷纷开启了定制化趋势。主要是用针对特定 AI 加速器架构定制的基底裸片(custom base die),取代了传统的通用裸片,优化信号路径、电源分配和接口协议,从而实现更高的能效和带宽密度。Semianalysis 认为,这是一次革新架构层面的重大飞跃,彻底改变了 HBM 与 AI 加速器的集成方式。
今年 6 月,SK 海力士已与英伟达、微软、博通达成 HBM4E 定制合作,三星也在与博通、AMD 谈判。这对国产厂商意味着更高的技术门槛与商业壁垒。亚马逊 AWS 高管甚至称,定制化可能 “关闭其他玩家的大门”。HBM 国产替代仍要加速奔跑,这也是一场国产 AI 算力生态闭环的团体赛。
绕过 HBM?
在 HBM 进展相对于 AI 模型规模和上下文长度增长较缓慢的情况下,卸载缓存压力的技术也成为选择。
在大模型推理中,HBM 的作用,除了用来封存权重之外,还用来存储 KV 缓存。生成式 AI 就是预测下一个 token,GPU 首先从 HBM 读取权重,同时检索整个 KV 缓存,将新 token 与对话历史进行比较。产生新的 token 后,GPU 将产生新 token 的新键(K)和值(V)追加回 HBM,扩大缓存。
所以,如果减轻 HBM 的压力,可以将 KV 缓存卸载到更便宜、更易获取的存储层级,如传统 DDR 甚至存储设备。
KV 缓存卸载已经被广泛使用。这类似于通用 CPU 中的多级存储:速度极快但密度低的 L1/L2/L3 缓存,以及速度较慢但密度高的 DRAM。在 AI 系统中,KV 的存储位置基于使用频率管理。
英伟达有一个名为 Dynamo Distributed KVCache Manager 的框架,将所有当前使用的 KV 保存在 HBM 中,不常使用的 KV 保存在 DDR 中,极少使用的 KV 保存入 NVMe(基于 PCIe 总线的高性能存储协议,为固态硬盘 SSD 设计)。
华为也于近日发布了 AI 推理加速技术 UCM(统一计算内存),在降低时延与成本的同时显著提升效率。它的技术原理,也是以键值缓存为核心,通过多级缓存算法,智能管理 AI 运算产生的记忆数据;按数据热度将 KV Cache 分层存储于 HBM/DRAM/SSD;融合稀疏注意力算法,优化算存协同效率。
在本地算力基础设施上,UCM 可以实现推理速度提升 3 倍,响应延迟降低 50%。这一技术将于 9 月开源。
HBM5 时代,英伟达杀入
存储墙的长期存在,成本持续上涨,威胁着英伟达未来的市场地位。HBM 容量从 A100 的 80GB HBM2E 飙升至 Rubin Ultra 的 1024GB HBM4E。每芯片的存储带宽也大幅提升。从 Ampere 到 Blackwell Ultra,HBM 不仅在材料清单(BOM)中成本超过一半,而且绝对和相对增长的最大部分都来自 HBM。
在计算与存储架构融合的趋势下,HBM 是未来 AI 芯片制高点的决定因素,英伟达从去年即开始布局掌握核心技术。
最近传出,英伟达将自己设计 HBM 基础裸片。这是一项至关重要的核心技术,英伟达已经决定,今后无论用谁家的 HBM,基础裸片必须自家设计。据业内盛传,3 纳米制程的基础裸片,预计将于 2027 年下半年小规模量产。
实际上,英伟达已经于 2024 年 8 月就向美国专利局提交了一份专利申请,并于 12 月获批。这项专利是一种 3D 堆叠式 “存储近计算” 架构,通过让处理器裸芯片与存储裸层层堆叠并一一对应,提升了数据局部性和运算效率,特别适用于 AI 大模型训练和高性能计算场景。
据韩国独立专利研究机构 SETI Park 分析,英伟达的专利将带来如下创新:
垂直集成架构:将存储裸片直接堆叠在处理器裸片之上,并通过垂直导电通路实现互连,实现处理单元与存储单元之间的直接、高带宽通信。
分区化组织(Tiled Organization):将处理器裸片和存储裸片划分为一一对应的对齐分区(tile),形成局部的处理 - 存储对,提升数据访问效率。
分布式 I/O 设计:在每个存储分区的中心位置布置 I/O 电路,缩短布线路径,降低能耗。
分层网络架构:在瓦片与裸片之间实现多层次通信路径,既保证了局部访问的高效性,又支持跨区域的数据共享。
这样下来,单位算力的带宽(byte/flop 比率)增加了 50 倍,每比特功耗降低 10 倍,而且制造流程简化了。
英伟达自己设计的裸芯片将有可能用于 HBM5。据韩国科学技术院(KAIST)和太字节互联封装实验室(Tera)的最近展望,重在 3D 近存技术突破的 HBM5,将于 2029 年上市,瞄准英伟达的费曼(Feynman)产品。

作者:杏鑫娱乐




现在致电 8888910 OR 查看更多联系方式 →

COPYRIGHT 杏鑫娱乐 版权所有