mt logoMyToken
ETH Gas
EN

SemiAnalysis拆解华为麒麟9030:制程受阻,折叠开路

Favoritecollect
Shareshare

半导体逆向工程领域,TechInsights 统治了几十年。上周末,Dylan Patel 的 SemiAnalysis 正式发布了旗下 STEEL 实验室(Teardown Engineering & Evaluation Lab)的第一份公开拆解报告,对象直指全球最受关注的芯片之一,华为 Mate 80 Pro 搭载的麒麟 9030 Pro,采用中芯国际最先进的 N+3 制程。

时机耐人寻味。TechInsights 正在被私募股权出售,而 SemiAnalysis 的营收已经超过了这家老牌巨头。Dylan 选择在这个节点亮剑,用的是一份技术含量极高的拆解报告,配合俄勒冈州实验室的实拍芯片照片。

报告的标题就是一枚炸弹: SMIC N+3 的最小金属间距(M0 pitch)仅 32.5nm,比 Intel 最新 Panther Lake 处理器使用的 18A 制程的 36nm 还小。

中芯国际在没有 EUV 光刻机的情况下,金属间距做到了比 Intel 还细?

这条消息如果只看标题,足以让整个半导体圈炸锅,但 SemiAnalysis 自己在报告第二段就泼了冷水,这是一个"cherry picked metric",一个被刻意挑选的指标。

本文将为你解读这份拆解报告,

密度追平,代价高昂

SMIC 的 N+3 制程在晶体管密度上,确实追平了台积电的 N6。

STEEL 实验室通过 TEM(透射电子显微镜)截面分析,测量出 N+3 的 Bohr 密度为 113.4 MTr/mm²,略高于台积电 N6 的 107.7 MTr/mm²。单元高度从 N+2 的 252nm 缩减到 228nm,接触栅极间距(CGP)从 63nm 缩减到 57nm。这些数字放在一起,意味着 SMIC 在没有 EUV 的条件下,通过纯 DUV 光刻,把逻辑密度做到了台积电成熟 7nm 级别。

代价是什么?

SMIC 的 M0 层使用的是自对准四重图案化(SAQP),即把一张光罩的图案经过四次加工来实现更精细的线条。台积电 N6 在同一层只需要双重图案化(SADP)。四重意味着更多的光罩数量、更高的套刻精度要求、更复杂的工艺流程,以及更高的成本。

SemiAnalysis 在截面图中直接看到了 SAQP 的代价:N+3 的 M0 沟槽呈现明显的倒梯形轮廓(底部比顶部窄),沟槽底部有清晰的阻挡层富集带。这种形貌虽然有助于铜填充,但在 32.5nm 这个间距上,工艺控制的难度急剧上升。

用一个交易员能听懂的比喻:SMIC 在做同样面额的钞票,但每张的印刷成本是台积电的数倍,而且良率风险更大。密度一样,经济学完全不同。

麒麟 9030:在受限条件下,把每一寸硅片都榨干

华为海思的芯片设计能力是另一个维度的故事。

从芯片面积看,麒麟 9030 和上一代 9020 几乎一样大(约 140mm²),但内部塞进了更多的东西:CPU 从 1 个大核 +3 个中核升级到 1 大 +4 中,GPU 计算单元从 4 个增加到 6 个,NPU 也多了一个 Tiny 核心,各级缓存全线扩容。N+3 的密度提升让华为在同样的芯片尺寸里装下了更多逻辑单元。

性能上,STEEL 实验室引用了公开跑分数据,给出的定位很清晰:麒麟 9030 的 GPU 性能(Maleoon 935)大致追平了 2022 年的旗舰级别,3DMark WLE 跑分比上一代提升 70%,略超骁龙 8+ Gen 1,但与当前旗舰骁龙 8 Elite Gen 5 相比,差距在 2.4 到 2.6 倍。

CPU 的情况更能说明问题。大核 TaiShan Prime 的每时钟性能(IPC)大致处于 Arm Cortex-X2 水平,一个 2021 年的设计。苹果 2020 年发布的 M1 Firestorm 核心,IPC 仍然高出 35%。最新的 Apple M5 P 核心,IPC 高出 60%,绝对性能是 2.7 倍。

差距的根源不在设计,在制程。苹果和高通用的是台积电 N4、N3P,这些制程在电压-频率曲线上有本质优势:同样面积可以塞进更多晶体管,同样功耗可以跑更高频率。华为的核心设计水平对标的是行业一线的上一代,但被困在了两代以前的制造工艺里。

当制程走不动了,华为准备“折叠”

报告最具前瞻价值的部分,是华为在 2026 年 ISCAS 会议上公布的τ缩放定律和 LogicFolding 路线图。

传统的半导体缩放在二维平面上推进:把晶体管做小,把金属线做细。摩尔定律走了几十年,本质就是在干这件事。华为现在提出的τ缩放,把优化目标从空间域转移到了时间域,核心是缩短数据移动和处理的时间成本,包括晶体管开关延迟、信号传播延迟、计算和存储的延迟。

LogicFolding 是这套理论的工程实现。简单说,就是把同一个逻辑模块拆成上下两层,面对面堆叠,通过超精细间距的混合键合连接。这样做的直接好处是缩短了最长的信号路径。现代芯片里,很大一部分功耗和延迟花在了驱动长连线和中继缓冲器上。把逻辑垂直折叠后,关键路径变短,频率可以上去,功耗可以下来。

华为给出了一条激进的路线图: 麒麟 9030 的大核频率是 2.75GHz,实验室里已经跑通 3.39GHz 的样片,目标是 2031 年达到 5GHz,同时通过 3D 堆叠将等效密度推到 295 MTr/mm²,对标台积电 14A 级别。

SemiAnalysis 对此保持警惕。他们指出,华为的密度计算方式和传统代工厂不同:3D 堆叠的密度是按封装面积算的,把多层有源逻辑叠在一起,自然会得到更高的数字。如果用同样的方法去算 AMD 的 MI450X(N2 顶层+N3P 底层),理论密度高达 460.2 MTr/mm²,远超华为 2031 年的目标。

但方向本身值得重视。华为走这条路,本质上是在制程受限的前提下,把"代工厂的活揽到了系统设计公司身上。AMD 的 V-Cache 在缓存上做 3D 堆叠,AMD MI350X 把 IO 和互联挪到底层芯片,华为要做的更彻底,直接把同一个逻辑块拆开,垂直分布,这在工程难度上是另一个量级的挑战。

出口管制重塑了竞赛的维度

SemiAnalysis 最后的结论直截了当: 出口管制没有阻止中国的芯片进步,但改变了进步的路径和代价。

SMIC 的 N+3 证明,不用 EUV 也能做到 N6 级别的逻辑密度。但这条路的成本更高,工艺更复杂,良率更难控制。往下走,每一步的边际难度都在加大:更多的光罩、更严格的套刻精度、更昂贵的多重图案化。理论上 N+4 可以做到 137.8 MTr/mm²(对标台积电 N5),N+5 如果加入背面供电,甚至可以接近 Intel 18A 的 HP 库。但每一步都比上一步更难、更贵、容错空间更小。

与此同时,SMIC 的 N+2 和 N+3 制程正在向华虹转移,阿里平头哥、寒武纪等设计公司也可能成为受益者。芯片制造知识从单一代工厂向生态系统扩散,这让针对单一企业的制裁效力进一步稀释。

而在设计端,华为和北京大学已经在为 LogicFolding 开发国产 EDA 工具原型。这不等于替代了 Synopsys 和 Cadence 的完整工具链,但国产 EDA 正在朝着"架构-制程-封装协同优化"的方向演进。

一个有意思的细节:STEEL 在拆解中发现,麒麟 9030 Pro 的 DRAM 来自三星(K4L2E165YD, LPDDR5X-9600, 1a 工艺节点),而 16GB 的 Pro Max 版本同时出现了三星和长鑫存储(CXMT)的封装。长鑫的芯片封装日期标注为 2025 年第 45 周,制程密度与业界 1z 级别相当。这意味着中国存储芯片已经开始进入华为旗舰供应链,尽管制程仍落后于三星和 SK 海力士一到两代。

对投资者而言,真正值得跟踪的信号在于华为的 3D 堆叠路线能不能在成本可控的前提下,让中国产芯片在手机、AI 推理、网络设备等场景中达到够用的门槛。

一旦够用成立,这条供应链的战略价值就会被重新定价。

Disclaimer: This article is copyrighted by the original author and does not represent MyToken’s views and positions. If you have any questions regarding content or copyright, please contact us.(www.mytokencap.com)contact
More exciting content is available on
X(https://x.com/MyTokencap)
or join the community to learn more:MyToken-English Telegram Group
https://t.me/mytokenGroup