黄仁勋、Marvell CEO同台对谈:未来AI拼的不是算力是连接,“能用铜就用铜,必须用光才用光”

當前語言暫無此文章翻譯,已顯示原文。
Marvell 与英伟达联手引爆 AI 基础设施革命,黄仁勋预言 Marvell 成为下一个万亿美元公司。算力瓶颈转向连接,铜缆向光纤跨越,数据中心需求激增,Marvell 股价大涨超 16%。

来源:华尔街见闻

随着AI模型走向庞大的“智能体(Agent)”时代,数据中心的算力瓶颈正逐渐向“连接”转移,一场由铜缆向光纤跨越的底层基础设施革命正在全面引爆。

在中国台北Computex大会的第二天,AI定制芯片、光通信与数据中心互联龙头Marvell董事长兼CEO Matt Murphy发表主题演讲。英伟达CEO黄仁勋作为特邀嘉宾惊喜现身,两位站在AI算力与网络互联顶端的掌舵人同台,将两家公司深度的战略绑定关系推向台前。这场联合亮相迅速成为本届展会迄今为止最高光的时刻。

(Marvell CEO Matt Murphy与黄仁勋在Computex大会上同台对谈)

黄仁勋站定后用一句话定调全场:"女士们、先生们,下一个万亿美元公司(The next trillion dollar company, ladies and gentlemen)"——他指的,正是Marvell。现场掌声雷动。据华尔街见闻文章写道,这背后,是英伟达数月前宣布向Marvell战略投资20亿美元的深度绑定,也是两家公司在AI数据中心基础设施领域联合深耕的最新注脚。

伴随着前一季度财报的发布,市场正高度聚焦Marvell在AI超级计算周期中的受益程度。对此,Murphy交出了一份令市场瞩目的答卷:十年前,Marvell数据中心业务营收占比不到10%,而上个季度,这一比例已超过75%且正以每年约40%的速度加速增长。基于最新财报指引,华尔街普遍预期其明年营收将达到惊人的164亿美元

在这一业绩狂飙的背后,黄仁勋与Murphy在对谈中揭示了AI基础设施最核心的投资主线——当算力和内存的瓶颈被相继突破后,“连接”将定义系统的最终性能。两位CEO的核心共识是:

AI基础设施的下一个决定性战场,不是算力,不是内存,而是连接(Connectivity)。Marvell正处于这场革命的核心位置。

值得注意的是,Marvell股价夜盘大涨超16%。

算力尽头是连接:AI进入“有用阶段”,引爆基础设施互联需求

为什么连接在今天变得如此重要?

Murphy在演讲中用一条清晰的逻辑链,解释了"连接"为何成为当前最关键的约束:

AI基础设施的瓶颈依次出现,依次被突破——算力(英伟达引领,成为全球首家市值达5万亿美元的公司)→内存(内存领域近期已涌现出三家新万亿美元市值公司)→连接(正在发生)。

"全球顶级超大规模云服务商正在重新规划其整体网络架构,他们意识到AI基础设施的扩展已成为首要的连接挑战,"Murphy说,"这不是我个人观点,而是我们从最大客户处得到的反馈。"

黄仁勋则在对谈中给出了最直白的商业逻辑:

“实用型AI(Useful AI)已经到来,它现在能盈利,Token也能盈利。当Token生产有利可图时,所有人都想生产更多Token,这就是为什么Marvell的需求如此旺盛,也是为什么我们的需求如此旺盛。”

黄仁勋指出,当下的AI正迈向“智能体(Agent)”模式,这种新型计算模式要求将任务打碎,分布式部署在巨大的计算集群中。“当你将一个计算问题拆解成多个部分,并将其分布在整个数据中心时,最不可或缺的就是连接性。”黄仁勋毫不吝啬对合作伙伴的赞美,甚至在台上直言:“女士们先生们,(Marvell)这就是下一家万亿美元市值的公司。”

Murphy则表示,单靠一个处理器早已无法满足AI工作负载,未来需要数百万个处理器协同工作。

“计算规模的扩大本质上是一个连接性挑战。整个行业已经解决了算力瓶颈,正在解决内存瓶颈,而下一个限制基础设施极限的瓶颈,正是连接。”

“能用铜就用铜,必须用光才用光”

在Murphy与黄仁勋的对话中最具市场参考价值的环节,是双方对铜缆向光纤过渡时间表的研判。

黄仁勋给出的策略框架干脆直接:"能用铜缆的地方就用铜缆,必须用光学器件的地方才用光学器件(You use optics wherever you must, you use copper wherever you can)。"

他解释,铜缆在带宽和传输距离上存在物理上限,突破这一边界之前,铜缆是简单、低成本、实用的选择;一旦越过临界点,光纤才接力承担机架间、数据中心间及跨数据中心的扩展需求。

他的核心结论是:

"未来5到10年,我们仍将大量使用铜缆,同时也会使用海量的光器件。这些数据中心如今已是基础设施的一部分了。"

这一"铜光并用、各守边界"的判断,对市场意味着:无论铜缆还是光纤领域,Marvell均处于持续受益的位置——而Marvell正是业内少数能在两个方向上同时提供完整解决方案的公司之一。

铜光切换的时间表背后,是不可回避的物理规律。Murphy解释:铜缆传输距离与带宽成反比,带宽每翻倍,传输距离缩短一半。当前最快量产系统单通道速率达200Gbps,对应铜缆长度约2.5米,而机架高度约2米——考虑到内部布线,2.5米已触及极限。"当我们升级到400Gbps时,铜缆将无法完全连接整个机架。铜墙(Copper Wall)正在移动,而且现在已经开始了。"每当铜墙向右移动一步,连接数量至少增加一个数量级,这将直接引爆光通信需求。

为了应对这一物理极限,Marvell正在重注CPO(共封装光学)技术,通过将光纤直接接入封装,紧邻计算芯片,来解决密度和功耗的难题。大会当天,Marvell正式发布了专为AI数据中心设计、具备行业最低功耗的全新100T以太网交换机,并展示了基于CPO的51.2T交换机,在板级层面完全消除了铜质走线。

“这不是什么未来的概念,它现在就已经在落地了。”Murphy表示,一旦光互联彻底打破了距离的限制,未来的数据中心将不再有计算和内存的物理刚性边界,基础设施将能够根据AI模型的需求进行大规模的动态组合。

NV Link Fusion构筑异构生态:Marvell要做AI时代的“瑞士”

为了应对极其复杂的网络架构需求,英伟达此前已向Marvell战略投资了20亿美元,双方的合作正向光通信、硅光子及NV Link Fusion等多个维度拓展。

NV Link Fusion的出现,旨在解决云服务商(CSP)的定制化痛点。黄仁勋解释道,云厂商在设计自家定制芯片(ASIC)的同时,依然希望接入英伟达的系统架构。

“你不必从我们这里买所有东西,只需买一部分就好。我们将英伟达的技术平台与Marvell的技术方案相融合,本质上就能构建出一个解耦、分布式且异构的数据中心。”

在这样的生态中,Marvell找到了自己无可替代的生态位。Murphy强调了Marvell中立且关键的地位:

“我们与计算公司深度合作,也与存储公司深度合作。在很多方面,我们就像行业中的‘瑞士’,与所有企业都保持合作。”

Marvell CEO在Computex演讲,Marvell CEO与黄仁勋同台对谈,Marvell CEO与日月光CEO对谈全文实录如下(AI辅助翻译):

主持人:请欢迎Marvell董事长兼首席执行官Matt Murphy。

Marvell CEO:

很高兴来到Computex第一天的开幕现场,也很高兴再次回到中国台湾。

我第一次来这里是将近30年前,那是我第一次到亚洲出差。我记得当时拜访了这里的几家核心科技公司。那时候,它们大多还是年轻的小公司、新兴企业。而如今,这些公司已经成为全球最重要的科技领导者。此后我有机会多次回来,亲眼见证中国台湾持续成长。

中国台湾已成为全球领先的科技中心之一。如今,AI基础设施的未来,有很大一部分正是在这里构建的。我想问大家一个问题:究竟是什么决定了AI基础设施的性能?

也许你们会想到处理器、GPU、XPU,或者制造芯片所用的工艺节点——3纳米、2纳米,乃至即将到来的A14、A16。这些都是很好的指标,能够充分反映计算的速度、效率和密度。AI工作负载确实对计算要求极高,但这并不是全部。

你可能会说,那内存呢?AI工作负载对内存的需求同样极高。更大的内存容量、更高的带宽,这些都很重要,都至关重要,毫无疑问。但这仍然不是定义系统性能的核心特征。

因为单靠一个处理器,无论速度多快、内存多大,都远远无法满足当今AI工作负载的需求。你需要数以万计、乃至最终数以百万计的处理器协同工作,共同构成一个庞大的计算引擎。

这就是为什么,在这种规模下,计算本质上是一个连接性的挑战。而且,连接的架构和特性,正日益成为决定系统整体性能的关键所在。

我们已经在加速计算领域看到了令人瞩目的突破,也看到了高带宽内存的出现,以应对AI带来的挑战。但我今天要告诉大家:下一波重大创新与规模扩张,将来自这些系统底层的连接技术。

随着这些连接从铜缆转向光通信,它们将开启全新的架构可能性。

所以今天,我将解释:为什么连接性正在成为AI时代最关键的特征与挑战之一,以及这一技术转型对光通信意味着什么。

这并不是遥远的未来,而是正在发生的现实——就在今年、明年,我们已经处于增长爬坡阶段。在Marvell,我们为这一刻已经准备了将近十年。我们非常有意识、有计划地围绕大规模数据传输所需的基础设施来构建这家公司。

要理解我们为什么做出这个战略押注,让我们回到十年前——那时我刚刚加入Marvell担任CEO。

在加入Marvell之前,我在一家公司工作了22年,那就是Maxim Integrated Products,一家领先的模拟半导体公司。在模拟芯片公司工作有一个独特之处:你的产品几乎会应用到全球每一件终端设备、每一套电子系统、每一个市场。

所以在那二十年里,我几乎亲历了每一个重大技术趋势的发展——从个人电脑,到笔记本电脑,到数码相机,到智能手机,再到最终的数据中心。我亲眼看着一波又一波的技术浪潮重塑整个行业。

所以当我加入Marvell的时候,我一开始并没有去想"我们有哪些产品"。我思考的是行业的走向。即使在2016年那个时候,我也已经看得很清楚:

全球半导体行业的下一个主要增长周期,将由数据平台公司来驱动。当时的那些公司,和今天一样——谷歌、亚马逊、微软、Meta。更具体地说,是这些市场所需要的半导体技术——用于传输数据、存储数据、处理数据、保护数据,而且要在极大的规模下实现。这就是我们当时的愿景。

但当我看了看我们当时的产品,真正契合这一趋势的寥寥无几。这是个问题。十年前,我们来自数据中心的营收占比不到10%,也就几亿美元。而当时我们超过60%的营收来自消费电子。

那确实是一段令人兴奋的时光——我们做虚拟现实头显、游戏主机、流媒体设备、可穿戴设备。事实上,我们当时最引以为豪的成就,是Marvell的芯片被设计进了全球第一款WiFi联网的芭比梦幻屋。那是我们的重大设计胜利。

这是真的。我加入Marvell的第一周,团队就专门向我介绍这个了不起的设计成果。

这就是我们当时的处境。我们有愿景,但现实与行业发展方向之间存在巨大的鸿沟。但我们有坚定的信念。正因如此,我们决定将Marvell的整个未来全部押注于此。

要做到这一点,我们需要清晰的愿景。当时的愿景很简单——

顺便说一句,十年后的今天,这个愿景依然没有变:打造一家专注于数据基础设施半导体解决方案的一流纯业务公司。

当时,"数据基础设施"还不是一个被广泛认可的市场类别。这是我们用来描述一种基础设施的术语——这种基础设施将承担起传输全球数据、存储全球数据、处理全球数据并保障其安全的重任。

但正如我说的,我们当时还没有真正涉足这个领域,坦白讲,可以依靠的资源也很有限。在推进过程中,我们有一些基础,但远远不够。

因此,我和团队得出一个结论:部分能力需要在内部自主构建,其他能力则需要通过战略并购来获取。而且我们必须聚焦。因为在转型过程中,不仅要决定你要做什么,同样重要的是明确你不做什么。

有了这个战略,我们开始行动。

我们围绕这一愿景系统性地打造Marvell,这不是一次单一的举措,而是一系列深思熟虑的选择。我们在最重要的市场中寻找最优质的资产——最好的公司、最先进的技术、最优秀的团队、市场地位最稳固的企业。

首先,我们剥离了与战略不符的业务,部分案例大家可以看到。随后,我们迅速收购了Cavium,以强化我们在计算和网络方面的能力,那是2018年的事。

2019年,我们剥离了WiFi业务——再次聚焦核心;同时收购了Avera,建立起我们的定制芯片业务,并通过收购高通相关资产,进一步丰富了我们的连接产品组合。

2021年,我们以100亿美元收购了Inphi,这是我们迄今为止最大的一笔收购。通过这次收购,我们将世界级的数据中心连接技术纳入了公司。

同年,我们还收购了Innovium(Innovium),为产品组合增添了高端数据中心交换能力。

之后,我们暂停了并购,用几年时间消化整合,专注于统一和拓展整体技术平台,以把握数据基础设施的市场机遇。

但在过去12个月里,我们重新启动了并购引擎。我们剥离了汽车以太网业务——再次体现聚焦的力量——并收购了Celestia AI,获取其光子架构技术;还收购了XCON,以增强大规模交换能力。

如果把过去十年加在一起:我们通过并购投入了约225亿美元,在Marvell内部有机投入了约180亿美元用于平台开发,同时剥离了约45亿美元的资产。

综合算下来,我们在这个平台上总共投入了约360亿美元。

现在让我展示这些投资的部分成果。

首先,我们已经打造出了一个卓越的技术平台,而这一切的起点,是先进工艺节点

成为工艺节点领导者,实际上是我们做出的最重要决策之一。过去,Marvell、Cavium以及我们收购的部分公司,都是"快速追随者"——也就是说,在工艺节点上落后一到两代。这很大程度上是规模不足造成的,通常企业采取这种策略都是这个原因。

但在整合这些业务之后,我们做出了一个决定:如果我们要在数据基础设施领域参与竞争,就必须处于绝对的技术前沿,别无选择。

这里有一个鲜为人知的事实。Marvell完全跳过了7纳米,实现了完整的节点跨越。当时,从14纳米和16纳米,一步跨越到5纳米。我的意思是,没有人会这么做,没有人会冒这种风险或做这种赌注,但我们做了,而且成功了。成功得非常好,实际上可以说是完美无缺。我们的工程团队在执行这场转型中表现出色。所以在2020年初,我们发布了第一个世界级IP平台,完整集成了裸片间接口、定制SRAM、高速串行器/解串器等技术。

Serdes就是一个很好的例子,展示了我们如何构建这个平台。它将Marvell自身的核心工程实力,与来自Avera、Inphi等公司的卓越人才相结合。如今,这已经是Marvell旗下一个拥有1500名员工的组织,在工程规模和能力方面首屈一指。为了支撑我们使命中的过程数据部分,我们与全球领先的超大规模云服务商深度合作,打造了一流的定制计算平台。这项业务一直为我们带来非常好的成绩。

在存储数据领域,我们构建了完整的产品组合,包括存储控制器、基于CXL的内存池化器,以及近内存计算。但我们真正全力以赴的领域,是数据传输。这正是我们高速连接产品组合发挥作用的地方。如今,纵观Marvell的数据中心业务,绝大部分营收实际上来自连接领域——从数据中心内部的高速光互连,到数据中心之间的长距离光通信,再到高速交换基础设施。


所以今天,我们是无可争议的连接领域领导者。回顾我们所构建的一切,以及市场最终的走向,我认为业绩本身就能说明问题。2016年时,Marvell还是一家营收23亿美元的公司。在我们开启转型之后,前五年公司规模翻了一番,营收达到45亿美元。**在接下来的五年里,我们的增长进一步加速。**根据华尔街对我们当前所处年度的普遍预期,我们预计将在过去五年的基础上增长约2.5倍,达到114亿美元。

而在最近几年,如果你仔细看,Marvell的年增长率约为40%。所以增长速度在过去几年实际上是在持续加快的。**所以在这个时间点上,Marvell已经进入了高速奔跑的阶段。根据我们上周财报电话会议中分享的展望,市场普遍预期已经上调,预计我们明年将实现164亿美元的营收。

正如我之前所说,当我们开始这段旅程时,数据中心业务占我们营收的比重不足10%,而我们把全部资源都押注在了它上面。**上季度,这一比重已超过75%,并且增长非常迅速。**所以我们已经是一家与过去截然不同的公司,这一战略构想已基本得到验证。但我们仍处于这场基础设施建设的早期阶段。下一阶段的机遇就摆在我们面前。我们将面临一系列不同的新需求,这让我们重新回到连接性这个话题。过去几年,随着AI对基础设施提出新的需求,我们看到行业不断突破一个又一个重大瓶颈。

首先是算力瓶颈。行业需要大幅提升算力,以支撑现代人工智能的发展。英伟达在引领这场革命中做出了令人难以置信的贡献,并一路成长为全球首家市值达5万亿美元的公司。祝贺Jensen以及他在场的整个团队,这真的是一个非凡、非凡的成就。接下来是内存瓶颈。更大的模型需要海量的内存和带宽,内存公司们正在积极扩大产能以满足这一需求。就在最近,我们看到该市场涌现出三家新的市值超万亿美元的公司。但瓶颈正在再次转移。现在,连接性将像算力和内存一样,决定基础设施的性能极限。行业将团结起来应对这一挑战。

这并不只是我个人的说法,这是我们从最大客户那里听到的声音。全球最大的超大规模云服务商正在重新规划他们整体的网络架构。他们意识到,扩展AI基础设施,如今首要的挑战就是连接性。随着推理模型、混合专家架构、生成式AI的持续演进,需要在基础设施中传输的数据越来越多,对带宽和低延迟的要求也越来越高。同时,工作负载已经无法局限于单个数据中心之内。

那该怎么办?他们需要建设更大的数据中心,或者建设由众多数据中心组成的完整园区,以及所有数据中心之间的高速互联。因此,连接能力成为扩展算力的关键支撑。我们的客户越来越意识到,光通信是未来的方向。他们希望像Marvell这样的行业领导者,帮助他们以大规模方式构建更大、更快的网络。纵观半导体行业,那些支撑这场基础设施建设的领先企业,可以清楚地看到,我们每一家都专注于基础设施的不同部分。

这一点体现在各家公司的营收结构上。有些公司以计算业务为核心,也就是说,他们绝大部分的营收来自计算领域,少部分来自连接业务,但核心还是计算。这显然是技术栈中至关重要的部分,这也是为什么这个领域涌现出了好几家市值超过万亿美元的公司。然后是专注于存储的公司,同样,这些公司目前都已是市值万亿美元级别的企业,令人难以置信。

而Marvell则不同,我们是独特的。今天,我们公司绝大部分的营收实际上来自连接业务。我们围绕数据传输构建了整个公司。而今天,我们绝大部分的营收确实来自连接业务。这涵盖了广泛的技术领域。即便是我们来自计算业务的那部分营收——大家可以看到——其根本原因也是客户将我们的连接技术嵌入到了他们的计算引擎之中。

这赋予了我们在当前技术转型中独特的地位和视角。这也让我们能与生态系统中的其他参与者建立截然不同的合作关系。我们与计算公司深度合作,也与存储公司深度合作。这些都是极具战略意义的关系。在很多方面,我们就像行业中的瑞士,我们与所有人合作。

Marvell在这个生态系统中所扮演角色的最佳案例之一,就是最近宣布的与NVIDIA的战略合作扩展。作为我们几个月前发布的这一公告的一部分,NVIDIA向Marvell投资了20亿美元,我们正在从多个维度拓展合作,包括光通信、光子技术以及NVlink Fusion。我非常激动地宣布,Jensen本人今天也来到了现场。他将与我一起上台,我们会花几分钟时间聊聊这段合作,以及AI基础设施未来将走向何方。现在,请大家掌声欢迎Jensen Huang上台。

黄仁勋:嘿,兄弟。

Marvell CEO:最近怎么样,Jensen?你还好吗?

黄仁勋:哇,这舞台可真大啊,我跑了好长一段路才上来。

Marvell CEO:你喘过气来了吗?还好吧?好,咱们开始吧。

黄仁勋:很高兴见到你。

Marvell CEO:哈哈哈,来了。恭喜你们昨天GTC大会的精彩开场,这周你们可是火力全开啊。

黄仁勋:谢谢,谢谢。

Marvell CEO:你可能已经听到我刚才说的一些内容了——今天我们要聊的是连接性这个话题。

黄仁勋:女士们先生们,下一个万亿市值的公司就要诞生了。

Marvell CEO:哇,那可太令人兴奋了!让我们一起来实现它吧。没错,一起干。但这一切的起点,还是要回到当前AI基础设施领域更宏观的发展态势。从大局来看,你怎么看待这个非同寻常的时刻?客户需求已经飙升到了屋顶,连接性在其中扮演什么角色?又需要怎样的互联技术?

黄仁勋:这个问题问得很好。昨天我说过,实用型AI已经到来。这正是贵司需求激增的原因,也是我们需求激增的原因。而让这一切成为可能的新型计算模式,叫做智能体(Agents)。这些智能体有一套特定的计算平台和计算模式——解耦式、分布式架构。当你把一个计算问题拆解成很多部分,并分布到整个数据中心之后,连接性就变得不可或缺了。这正是Matt业绩出色的原因,也是Marvell如此重要的原因。我们通过分布式和解耦式计算,让任务在这些庞大的集群中运行,从而能够聚合所有的计算能力、内存和带宽——而让这一切成为可能的,正是连接性。是的,我们已经看到了这一点。而且,你可以认为它们将成为下一个万亿美元市值的公司

Marvell CEO:我们还有些工作要做,但已经走在正确的路上了。谢谢你,Jensen。我们来聊聊规模的问题。过去我们谈的是数十台GPU、CPU和XPU的互联,现在已经扩展到数千台,未来某个时候甚至可能达到数百万台。随着计算规模和连接规模不断扩大,我们提到了智能体这类概念。那你怎么看跨数据中心、数据中心内部的这些应用?你如何看待大规模连接在其中发挥的作用?哪些技术在这方面最为关键?

黄仁勋:从根本上讲,智能体计算模式需要一套编排系统,让大型语言模型和计算资源能够进行思考、推理,并制定行动计划。但与此同时,智能体还必须能够使用工具——比如浏览互联网、访问内存、处理长期记忆和短期工作记忆。这一切都需要强大的连接能力。

另外,看看我们推出Vera Rubin的方式就能理解这个逻辑:Hopper是为训练设计的Grace Blackwell引入了NVLink 72,这是我们第一个规模化扩展架构,它引入了针对超大型混合专家模型(MOE模型)的极速推理理念,所以Grace Blackwell是为推理而生的;而Vera Rubin是为运行智能体而设计的。这就是为什么Vera Rubin系统不仅包含Vera Rubin思考型AI,还配备了用于编排的Vera CPU,以及用于存储加速、管理长期记忆的Vera CX

我对这些系统的理解是:有时候云服务提供商(CSP)可能想设计自己的定制芯片。在这种情况下,我们也可以一起合作推进NVLink Fusion。这项技术使得采用统一的系统架构成为可能——在Vera Rubin的基础上,融入你们的半定制芯片、大量互联技术、硅光子学及光学技术,从而构建出一个本质上可解耦、分布式、异构的数据中心。这就是核心思路。

而且他们的系统架构是完全一致的,网络技术可以大量利用NVIDIA的技术栈,CPU可以是Vera,同时也能大量利用Marvell的技术栈。所以,NVLink Fusion就是把NVIDIA的技术与平台、Marvell的技术与方案融合在一起——这就是它叫"Fusion(融合)"的原因。

Marvell CEO:是的,说到我们的合作关系,我们已经携手很久了。通过投资的方式来正式确立这段合作关系,我们真的非常感激。这对我们来说意义重大,我们深感荣幸。

黄仁勋:你知道吗,谁不喜欢赚钱呢?能够给予,感觉很好。

Marvell CEO:自从你们投资以来,进展非常顺利。

黄仁勋:我喜欢变得富有。把我所有的钱都交给Matt,然后看着他帮我赚钱就好了。

Marvell CEO:哈,那正是我每天在做的事。但我认为你提到的这些事情,我们都已经一一落地实现了——比如NVLink Fusion,再比如在光学领域的合作。我觉得现在这个智能体时代以及你们的新平台,简直是天作之合。NVLink Fusion这个想法,我们其实几年前就有了,对吧?但那时候确实有点超前。现在我想问问你是否认同:结合你们的平台,以及我们客户在定制网络和计算方面的需求,加上系统互操作与协同的能力和需求——现在正是Marvell与NVIDIA携手赋能客户的最佳时机,帮助他们获得所需的灵活性,借助智能体时代的机遇,共同扩大我们的平台规模。

黄仁勋:是的,归根结底我认为,如果客户只采购NVIDIA的产品,完全没问题。但如果客户确实需要自己设计ASIC芯片,我们同样乐见其成——只要NVIDIA能进入他们的数据中心就行。所以客户不必从我们这里买所有东西,只需要买一部分就够了。我们很乐意支持你,也支持客户。

我们两家合作,能带来一个通用型、高效率、设计精良的系统,以Vera Rubin为基础,同时你也可以在此之上扩展出专用化的部分。这就是为什么你们的客户也是我们的客户——NVIDIA在AWS里,Marvell也在AWS里;NVIDIA覆盖所有云平台,看到Marvell也扩展到这些不同的云平台,真的很棒。

Marvell CEO:好的,谢谢。最后再问你一个问题。

黄仁勋:给我留点业务做,好吗?

Marvell CEO:听着,我们现在可是你最好的销售人员。

黄仁勋:我才是你最好的销售人员。

Marvell CEO:哈,合作愉快。最后一个问题:我今天演讲有很大一部分讲的是转型,尤其是机架内部从铜缆到光纤的转变。显然这不会一蹴而就,需要时间,不同的用例也有不同的时间表。你如何看待目前这一转型的进展?从铜缆到光器件,以及我们在这方面可能的合作?

黄仁勋:我们应该尽可能长期、最大限度地使用铜缆。但铜缆有其局限性——在带宽和传输距离上都存在瓶颈。所以,正确的策略是:能用铜缆的时候,先用铜缆扩容,用到极限为止;之后再通过光器件进一步纵向扩展、横向扩展、跨区域扩展。总结就是:必须用光器件的地方用光器件,能用铜缆的地方就用铜缆。我认为这种交叉并用的局面还会持续很长时间。

核心结论是:未来5到10年,我们仍将大量使用铜缆,同时也会使用海量的光器件。这些数据中心如今已经成为基础设施的一部分。

我之所以说实用型AI已经到来,是因为AI现在能够盈利,Token的生产是有利可图的。当Token生产有利可图,所有人都想生产更多Token——这就是为什么Marvell的需求如此旺盛,也是为什么我们的需求如此之高。因为智能体到处都在使用Token,大家都想生产更多。

Marvell CEO:好,我觉得你已经把我后面要讲的内容都提前说了一遍。要是你想把我剩下的演示全讲完,也可以啊。

黄仁勋:各位,这些幻灯片做得真漂亮。你就坐那儿吧,我来讲——哈哈。

Marvell CEO:好,接下来交给你了。好了,Jensen,很高兴见到你,兄弟,保重。

黄仁勋:好的,谢谢大家。

Marvell CEO:

好的,太棒了,一如既往地很高兴Jensen能来这里。好的,我们已经聊了很多关于连接性的话题,Jensen和我刚刚也讨论了这个,所以现在让我们深入探讨,再往下挖一层。

AI基础设施覆盖各种距离范围,从数据中心之间的数百甚至上千公里,到封装内部的仅仅几毫米。每一种距离都需要不同的解决方案。

这是不同的技术、不同的工程团队、完全不同的专家群体,在很多情况下还涉及不同的供应链。所以这些并不是同一个问题的简单变体,这里面临的是根本不同的工程挑战,接下来我们将逐一介绍。

好的,让我们从最长的距离开始。Jensen提到过这一点——这是跨数据中心互联的规模问题。

如今,各大云服务商在全球拥有数百个数据中心,所有这些数据中心都需要相互通信。这本质上是一个长距离连接问题。我们谈论的是跨度可达数百甚至上千公里的链路。这需要一种非常特殊、非常复杂的技术,叫做相干调制。其核心是专用数字信号处理器(DSP)。

它的设计目标是通过光纤电缆在极长距离内传输海量数据,同时保持极高的可靠性。全球只有少数几家公司能够制造这种相干DSP,而我们正是其中之一。Marvell在这项技术领域已经领先了很多代。我们生产的光模块集成了驱动和调制激光器所需的全部电子元件,并实现长距离数据传输。

我口袋里带了个小东西来展示——这次拿的不是芯片,而是一个光模块。

这是我们的相干光模块,是一款极为复杂的工程产品。在Marvell,我们自己制造整个模块,这个就是我们做的。它包含先进制程的CMOS数字信号处理器(DSP)——仅这颗DSP本身,就是我们在Marvell设计的最复杂的芯片之一。但它内部还集成了我们的第四代硅光子技术,就在里面。我们在硅光子领域已经研发并量产这项技术长达十年。此外,它还包含我们自主设计的宽带模拟组件,采用硅锗工艺制造。

Marvell十年前就以100Gbps的速率开创了这项技术。

之后迈向400G,现在已经实现800G的批量出货。今年晚些时候,我们将推出全球首款1.6太比特(Terabit)2纳米相干光解决方案的样品,而这一产品的推出时机再好不过——带宽需求从未像现在这样旺盛。

好的,现在让我们深入数据中心内部。这些数据中心规模庞大,跨度可达数百米,内部布满了一排排的计算服务器机架。

每个机架顶部通常配有一台交换机,服务器与之相连。这些机架级交换机连接到汇聚层,再接入核心交换机,从而构建出将整个数据中心连接在一起的网络架构。所有设备都通过光纤电缆连接。同样,光模块负责驱动这些光纤电缆上的数据传输,但这次采用的调制方案有所不同。

我们没有使用相干技术,而是采用了一种更加节能优化的调制技术,叫做PAM4。这一市场领域的两大关键半导体解决方案,分别是模块内部的PAM4芯片组,以及将整个数据中心连接在一起的云交换基础设施。Marvell两者都做。

从PAM4芯片组说起,我们打造了行业领先的PAM4 DSP解决方案,以及配套的高速模拟组件,包括跨阻放大器(TIA)和激光驱动器。

顺便提一下,这些组件也是采用硅锗工艺制造的。我们引领行业经历了PAM技术的每一次重大迭代——从50G、100G,到200G、400G,再到800G。去年,我们开始量产Marvell的1.6T 3纳米PAM4解决方案。

在以太网交换领域,Marvell同样拥有从12.8太比特到51.2太比特的完整产品组合。今天,我们发布了全新的100T以太网交换机,专为AI数据中心设计,具备行业最低功耗。

(观众欢呼)哇哦!哈哈哈哈哈哈

这是我们为Computex展会特别准备的发布,我们等到今天才宣布。

综上所述,我们为数据中心内部连接提供端到端的完整解决方案。

现在让我们深入到机架内部。这里的目标是通过全任意互联(any-to-any)架构,将尽可能多的处理器连接在一起。也就是说,每一个处理器都能直接与其他所有处理器通信。Jensen也谈到了这一点。首家将这种架构推向市场的公司是NVIDIA,产品就是NVL 72——名称来源于单个机架内互联的72颗GPU。

这需要一种完全不同的连接方式:一种全新类型的交换机,以及在机架内部铜质背板上传输超高速信号的能力。如今,这一领域不再依赖光技术,而是以铜技术为主导,核心差异在于电SerDes(串行器/解串器)技术,而非光技术。

Marvell目前拥有领先的200Gbps技术,并且在过去几年已经成功演示了面向未来的400Gbps技术

我们正在将SerDes技术集成到客户的定制芯片、XPU(加速处理器)中,以及我们自己的高端扩展交换机中。

好的,现在让我们一路深入到封装内部。到了这里,我们谈论的不再是米,而是毫米。你可能不会把这想成一个连接性挑战,但如今大多数先进芯片在封装内部都包含多个小芯片(chiplet)。当采用2.5D或3D封装时,这本质上就是一种连接技术,它让这些小芯片能够在封装内部紧密地排列在一起,

并通过超高速短距离芯片间接口进行通信。Marvell拥有领先的芯片间SerDes技术和先进封装能力,助力客户打造行业内最复杂、最独特的多芯片产品。

可以看出,AI数据中心的连接性需要极为广泛的技术组合。不同的距离需要截然不同的解决方案,而Marvell拥有行业最完整的产品组合,覆盖从毫米到公里的所有传输距离和每一个节点。

事实证明,将所有这些能力整合在同一个体系下,是非常罕见的,甚至可以说是独一无二的。通常在竞争中,我们在不同距离的各个领域都会面对不同的竞争对手。但这正是我们的独特之处——我们是一站式服务提供商,也是整个连接技术栈的领导者。

这就引出了行业面临的下一个重大挑战。

大家可能已经注意到,我在前几张幻灯片中描述这些不同解决方案时,是针对不同距离的,而且目前有些连接是光连接,有些是电连接。这实际上是由距离决定的。

图表左侧的连接目前是光连接,这意味着它们使用光纤电缆传输光信号,电缆两端配备复杂的电子设备,用来驱动和调制传输光信号的激光器。

图表右侧的连接是电连接,使用铜缆、电路板上印刷的铜迹线,甚至是封装内部的微型铜布线。核心共性是铜。

在图表中间,你可以看到那堵墙——铜墙。这堵墙由铜质信号传输所能达到的最大距离来定义,也就是在不得不切换到光连接之前,信号能走多远。

这个区别非常重要,因为铜方案简单、成本低,正如Jensen所说,你应该尽可能地使用它,非常实用。但光方案更加复杂,需要激光器、光子学和精密电子元件,实施难度更大——但它是必不可少的。

今天我要告诉大家的是:铜墙即将移动。它将再次移动,并将覆盖整个机架本身。这将引爆光产业的需求。极高难度的工程挑战即将到来……

那么,为什么会发生这种情况呢?这并不是因为某个人的个人偏好,而是物理规律决定的。铜缆传输信号的距离与带宽成反比。每当你把带宽翻倍,传输距离就必须缩短一半。举个例子,目前全球量产系统中速率最高的,单通道可以达到每秒200吉比特。

在这个带宽下,铜缆的长度被限制在大约2.5米。相比之下,运行在100吉比特的系统可以使用大约5米的线缆,而机架的高度大约是2米。考虑到机架内部所有的布线需求,2.5米已经到了极限。所以当我们升级到400吉比特时,铜缆就再也无法完全连接整个机架了。

这堵"墙"正在逼近,而且就在当下。展望未来,即使是机架内部的连接也将转向光通信,整个行业都清楚这一趋势即将到来。所以我们一直在为这一时刻做准备——不只是Marvell,而是整个行业。顺便说一句,你在中国台湾以及供应链的快速扩张中都能看到这一点。这带来的影响其实是巨大的,因为每次这堵"墙"向右移动一步,连接的数量至少会增加一个数量级。

正如我提到的,这正在引发需求的爆发式增长,光通信供应链需要大规模扩张并做好准备。但我们以前见过这种情况,对吧?我是说,二十年前——我记得很清楚——当时数据中心内部最先进的技术是每秒10吉比特,就是10G,我们在整个数据中心都使用铜缆。那时候光通信只用于非常非常远距离的传输。

它本质上就像一种电信技术。但当那堵"墙"移动的时候,光通信行业真的迎接了这个挑战。如今,全世界所有超大规模数据中心都采用了光连接。正如我们在那次转型中看到的,这需要全新的解决方案。你不能沿用电信领域那种高功耗的方式,这正是PAM4技术发挥作用的地方。PAM4针对功耗、密度和传输距离进行了优化,完全是为数据中心内部的特定需求量身定制的,而Marvell正是这一领域的核心创新者之一。所以,随着光通信向机架内部迁移,我们即将迎来同样一波创新浪潮,这就涉及到一种叫做**共封装光学(CPO,Co-Package Optics)**的技术。你现在经常听到这个词,我来给大家详细介绍。

CPO是一种将光连接一路延伸到芯片封装本身的技术,紧邻计算单元——无论是定制计算芯片还是交换芯片。我们用CPO解决的根本问题是密度和功耗。要记住,机架内部的连接数量大约是机架之间连接数量的10倍。所以,如果我们试图直接把数据中心机架间使用的那种光技术搬进来用,功耗不够,物理空间也不够,现有的那些标准光模块和线缆根本塞不下,这条路根本行不通。

这是不可能的。所以整个行业一直在发明共封装光学这一概念,把光纤直接引入封装内部,并将驱动光纤信号的电子元件与定制计算芯片或交换芯片紧密耦合在一起。这是一个巨大的变革,难点在于你需要把芯片行业中一些最先进的技术融合在一起:前沿CMOS工艺、硅光子学、先进封装、光互连,所有这些都集成在一个小型、高度集成的系统里。

复杂度非常高,但这是继续扩展带宽、突破我之前提到的铜缆限制、同时降低功耗的唯一途径。这是整个行业的发展方向,这也是Marvell十多年来持续投资硅光子学、光DSP(数字信号处理器)以及相关所有模拟宽带组件的原因之一。还有实现这一切所需的所有先进封装技术,这些技术最终都需要在CPO中汇聚在一起。所以,各位,这不是什么遥远的未来,它现在就已经发生了。事实上,我今天带来了几个Marvell的实物案例,我们来快速做个展示。好的,这边,是一台传统的以太网交换机。

这是我们今天发布的100T Teralynx交换机,在座各位实际上是第一批亲眼看到它的人。你们可以看到交换机芯片位于电路板中央,PCB内部的铜质走线将信号传输到前面板,也就是这里,所有光模块都插在这里。现在我们来看这边,这是一台基于CPO的交换机。注意中间仍然有交换机芯片,就在封装裸片的正中央。这台是我们的51.2T交换机,四周边缘分布着16个3.2T光引擎

16乘以3.2,就得到51.2。所以现在光纤是直接连接到这些光引擎的,而不是连接到前面板。我们已经完全取消了PCB上的铜质走线,光信号直接从封装中输出。这是一项极其复杂的工程成果,今天能够展示出来,非常令人兴奋。好了,共封装光学技术已经成为现实,行业正在扩大规模迎接这一挑战。正如我们一次又一次见证的那样,每当我们遇到一个物理瓶颈,我们都会用技术来突破它。

以及创新。在这种情况下,就是用光纤取代铜缆。因为与在铜线中传输的电子不同,光子通过玻璃传输信号的距离,基本上与带宽无关。所以随着AI基础设施对传输速度的要求越来越高,并且需要扩展到更大、更复杂的系统——现在是数百万个处理器互相连接在一起,而不是数千个或数百个——光连接将越来越成为事实上的标准解决方案

那么,真正的问题就变成了:要在整个AI基础设施栈中部署光技术,需要什么条件?需要什么?首先要认识到,没有任何单一技术能覆盖整个数据中心。事情不是这样运作的。没有放之四海而皆准的解决方案,没有捷径,没有轻松到达终点的路。不存在某一种单一的架构、调制方案、频段,或者某种独特的技术能解决所有问题。

天下没有免费的午餐。这就是为什么我们针对每一个传输距离,都在探索多种不同的、独特的光路径。这里展示的每一项技术,都是针对不同设计点优化的。每一项技术都支撑着基础设施中的一个关键环节,满足整个栈在密度、带宽、功耗和集成方面的不同需求。所以,光互连是下一代AI基础设施赖以构建的底层技术

Marvell正在打造行业内最广泛的产品组合,拥有最深厚的技术团队。但没有任何一家公司能单独完成这一转型,正如Jensen之前说的,这需要整个生态系统的协同。所以,正如我说的,技术创新固然很好,它是挑战的一部分,但不是全部。真正重要的是规模化落地。如果你现在还只是停留在PPT演示、概念验证(POC)或者新闻稿的层面,那是不够的。客户现在就需要解决方案,这些方案必须是成熟可靠、可量产、可大规模部署的。所以Marvell和我们的生态伙伴在这方面已经深耕了很长时间,我们已经出货了数亿片DSP(数字信号处理器)

通过这些庞大的出货量,我们已经在现场积累了数千亿小时的设备运行数据。这种经验至关重要,因为这些产品必须在实际环境中稳定工作,而不仅仅是在实验室里。而是要在全球最大的数据中心里,以极高的产量,可靠地运行多年。这要求我们提前布局制造生态系统,必须建设好产能和供应链基础设施。

在市场需求到来之前就做好准备——这就是生态系统如此重要的原因,顺便说一句,这在中国台湾尤为关键。在Marvell这段旅程中,日月光半导体(ASE,Advanced Semiconductor Engineering)是我们最重要的合作伙伴之一。日月光半导体是全球领先的半导体制造企业之一,拥有超过10万名员工,业务遍及亚洲以及全球各地。数十年来,它助力实现了我们在半导体行业经历的几乎每一次重大技术转型。

引领日月光半导体度过当前这一转型时期的,是一位我非常熟悉的人。他花了超过25年的时间,帮助塑造了这家公司和整个行业。今天,我非常荣幸地邀请我的下一位演讲嘉宾上台,他就是日月光集团(ASE)首席执行官吴田玉博士。田玉,请上台。谢谢。田玉,你好吗?

Marvell CEO:

很高兴见到你。能与你同台是我的荣幸。我们已经合作很长时间了。你知道,当我成为CEO的时候,我们有一系列的目标。我们和很多供应商都谈过。早在我担任Marvell CEO之前,我在Maxim担任高管时就认识你了,我们在那里也有过合作。但有一点,或许也需要向观众解释一下——人们有时没有意识到,作为这个生态系统的核心供应商,你必须做出押注。

你必须押注你合作的公司,押注你认为会成功的对象。我们非常感谢日月光(ASE)很早就押注了Marvell,而且基于这个决定,我们确实取得了很大的成功。我很好奇,你能否分享一下你的看法——当初你对Marvell的判断是什么,你的思考过程是怎样的,以及我们今天的合作进展到了哪里?非常期待听你分享,田玉。谢谢。

日月光CEO:

我认为最好的描述方式是:这是一个循序渐进的过程。最初的决定其实并不困难。Marvell是一家非常优秀的公司,声誉卓著,经历过很多次转型,所以Marvell的历史业绩已经摆在那里了。但在你加入的时候,产品体系略显陈旧。首先,商业模式需要对齐。日月光在中国台湾,属于制造业。我们寻找的押注,不仅仅是赌你们的成功,我们也在押注那些能够为下一代架构和技术需求提供洞见的伙伴。

大家知道,中国台湾的公司会提前10年投资基础设施和资本支出,这是一个很大的赌注。我们只关注一件事:我们投入的产能,是否会被需要,是否能被充分利用。这就是我们的盈利方式。因此,押注那些我们相信能在未来给我们提供深度洞见的公司,变得至关重要。这就是当初做出这个决定的核心逻辑。

过去十年,我真的非常欣慰。我们谈论的一切,十年前还只是梦想,只是一个梦想。而今天,我们即将把它量产出货。

你刚才提到,未来几年将实现40%的增长,我相信你们能做到。所以我们现在正忙着为你们扩充产能。是的。我们也非常感激,过去十年我们进行了大量的战略讨论——你们向我们做出承诺,我们为你们进行投资,随着时间推移,我们将生产越来越多你们的零部件。

我想这就是这个决定是如何诞生的简短故事。

Marvell CEO:

是的,这确实是一个很棒的故事。或许再问你一个问题——中国台湾的生态系统非常独特,正如你所说,需要大约十年的投资才能真正看到回报,这里正在形成一股强大的力量。你会如何向这里的人们描述它?同时,全球也有很多人在关注。是什么让这一切在这里成为可能?为什么它如此独特?又是什么让它在世界其他地方难以复制?尽管全球化趋势依然存在,我们该如何看待这些动态?我觉得这是一个很有意思的问题。

日月光CEO:

我认为你提出这个问题,是因为全球存在很多竞争力量,以及各种不确定性。我的观点是,任何企业都需要有愿景,以及在价值层面的长期共识。在商业模式上,整个中国台湾半导体产业建立在产能利用率和创新之上,技术投资始终领先于行业趋势。这正是中国台湾的核心价值所在。无论是无晶圆厂公司,还是特定的IDM公司,都能与这种模式相契合。

其背后是规模经济效应。中国台湾积累了四十年的发展历程,从PC时代过渡到无线通信、移动计算,再到数据中心,如今已进入高性能计算(HPC)领域。四十年的经验积累,造就了35万名半导体从业人员,以及110万名高科技人才,其中很多人就在这里。这种经验的价值极其宝贵。再加上规模经济与产业集群效率的结合——当你想到这支拥有多年经验的劳动力队伍,当你想到产业集群效率,当你想到我们已经投入的产能规模优势,这些都是我们的核心竞争力。

但还有一点。我认为,中国台湾不管好坏,我们的选择比美国等其他地区要少。因此,大多数工程师毕业之后,可以选择的机会并不多。半导体和IT产业在中国台湾成为了极具吸引力的选择,但在其他地区未必如此。综合所有这些因素,我认为这个生态系统极难复制。并非完全不可能,但需要很多年的时间。

Marvell CEO:

非常好,非常感谢。我非常珍视这段合作关系。我们要出发了,Tian。谢谢你,Tian Wu,谢谢。

好的,正如我们所说,AI和数据中心的未来,是全光连接的基础设施。你们也听到他亲口说了,这将推动一波增长、创新、规模扩张和制造业的浪潮。但这个必然到来的未来,究竟是什么样子的?

我的意思是,如果你退一步,暂时不去想当下,而是想象十年后的世界——那将是一个很多铜缆连接已经消失的世界。试想一下,未来某个时刻,数据传输将全面实现光纤化。届时,距离将不再是问题,而这是一个深刻的变革。

今天的服务器、机架以及整体数据中心架构,都是围绕距离的限制来设计的。软件工作负载实际上也是围绕同样的限制来优化的。但如果距离不再是问题呢?

当基础设施不再受距离限制时,架构本身会如何改变?又会催生哪些新的能力?让我们从机架内的横向扩展网络(Scale-Up Network)开始探讨。正如我们之前讨论的,通过全任意对任意的连接配置,我们可以在机架内将尽可能多的处理器连接在一起。过去,这个域的规模受到铜缆连接长度的限制,但采用光纤之后,距离不再是问题。

现在,我们可以将横向扩展域的规模,从72个或144个XPU/GPU,扩展到1000个甚至更多,全部通过光互联。这对工作负载的影响是巨大的。今天,AI工作负载必须被拆分成更小的子问题,才能适配横向扩展集群,因为当前集群外部的通信速度慢得多,带宽也低得多。但光互联系统能够处理规模大出一个数量级的工作负载。

而且,这还不止于此。当光连接延伸到服务器内部时,会发生什么?现代AI服务器由一定数量的CPU、XPU、内存和网络接口组成。它们都集成在同一个系统中,原因就在于距离限制。CPU和XPU需要以极高的带宽访问内存,这意味着它们必须紧挨着放在主板上,通过铜质走线实现彼此之间的连接。

但在未来,当这些连接全部采用光技术时,距离将不再是问题。我们可以想象一种完全解耦的架构:XPU在一个系统里,内存在另一个系统里,通用CPU在第三个系统里——这将开启另一种可能性。

在今天的系统中,CPU与XPU或GPU的比例是固定的。这些比例必须在系统构建和部署时就确定下来。但没有任何两个工作负载需要完全相同的比例。黄仁勋实际上也提到过这一点——这意味着在任何给定时刻,计算机内存的某一部分,可能对于某个特定工作负载来说是未被充分利用的,这会造成成本浪费。但一旦我们将系统分解为独立的计算池和内存池,并通过光技术实现全部互联,我们就能实时动态地构建专用系统,针对任何工作负载进行优化。

想象一下未来的数据中心:一个全球光互联的数据基础设施。我们今天面临的那些刚性边界,以及我们现有的那些系统,将开始消失。计算资源可以被池化,内存可以被池化,基础设施可以动态地大规模组合。架构师将第一次能够围绕模型的需求来设计AI系统,而不是围绕互联的限制。这正是AI基础设施的发展方向。

这是一个无距离的数据中心,计算、存储、网络和光子技术作为一个统一的系统协同运作,数据中心内数以百万计的资源可以像一台机器一样协同工作。这是一种由工作负载需求定义、而非由连接限制定义的架构。

我们相信,这是计算基础设施的下一个时代,而Marvell正在帮助构建连接基础,使这一切成为可能。

非常感谢大家今天的时间。

分享至:

作者:华尔街见闻

本文為PANews入駐專欄作者的觀點,不代表PANews立場,不承擔法律責任。

文章及觀點也不構成投資意見

圖片來源:华尔街见闻如有侵權,請聯絡作者刪除。

關注PANews官方賬號,一起穿越牛熊
PANews APP
Tether比特幣儲備向Bitfinex轉入逾200枚BTC,引發減持猜測
PANews 快訊