当前位置:首页 > 热点 > 正文

英伟达真正的对手是谁

  • 热点
  • 2025-12-23
  • 3
  • 更新:2025-12-23 13:51:17
刘劲 段磊 李嘉欣/文 算力是推动人工智能发展的核心基础与关键动力。作为AI算力领域的代表企业,英伟达凭借其领先的产品性能与独特的生态体系,在AI训练及推理芯片市场建立了近乎垄断的行业地位,已成为全球市值最高的上市公司之一。截至2025年11月,英伟达市值约达4.5万亿美元,当年第三季度营收同比增长约62%。 尽管面临诸多竞争者,英伟达的市场主导地位依然稳固。在美国,既有AMD、英特尔等传统芯片巨头,也有谷歌TPU、亚马逊Trainium与Inferentia等科技公司的自研算力方案,还有Cerebras、Groq等专注于机器学习架构优化的新兴企业;在中国,华为、寒武纪、燧原等AI算力芯片厂商也在快速发展。然而至今,这些竞争者仍难以真正动摇英伟达的领导地位。不过,未来的竞争格局仍存在变数。 **竞争壁垒分析** AI算力芯片主要应用于训练与推理两大场景。训练指模型通过海量数据学习并调整参数的过程,推理则是将训练完成的模型应用于实际任务。 在大模型发展的早中期,训练算力是制约模型性能的核心瓶颈,也是算力芯片的战略高地。因此,本文重点探讨训练场景。 英伟达在训练算力上的优势主要源于两方面:技术领先与生态垄断。 当前主流大模型参数量已达千亿乃至万亿级别,训练过程依赖大规模芯片集群进行高效并行计算。要实现复杂、高成本训练的顺利开展,还需依赖一整套连接工程师、芯片与模型的软件系统与工具。 因此,训练对算力芯片的要求可归纳为三点:单卡性能、互联能力与软件生态。 单卡性能不仅包括计算能力(以FLOPS衡量),还涉及存储配置。由于训练需加载海量参数并实现高速数据吞吐,因此必须配备高带宽、大容量的存储(如HBM)。由于制造工艺差异,显存与计算芯片通常独立封装或集成于同一板卡,故常统称为“单卡性能”,用户关注点包括算力、显存容量与带宽、计算精度、功耗与能效等。 英伟达在单卡性能上处于行业顶尖水平,但竞争对手正在追赶。例如AMD最新产品在关键指标上已接近英伟达同期水平。然而,仅靠单卡性能的逼近并不足以挑战英伟达在AI训练领域的整体优势。 互联能力对大模型训练至关重要。训练本质是分布式并行计算,互联系统如同“血管与神经网络”。前沿大模型训练需协调数万张算力卡协同工作,这对厂商的工程能力与芯片互联技术提出极高要求。 英伟达通过专有互联技术NVLink及高性能通信交换硬件NVSwitch,实现了万卡规模的高效稳定互联。其他AI芯片企业的实际集群规模大多仍停留在千卡级别,且常采用多小集群并行部署的方式,与英伟达的纯万卡并行集群存在显著差距。 互联规模、质量与稳定性直接影响算力利用效率、训练时间、成本乃至训练成败。选择次优方案带来的潜在损失可能远超成本节约,这使得英伟达方案具备强大吸引力。此外,其他厂商缺乏大规模商用实践以优化互联方案,进一步增加了追赶难度。 除技术优势外,英伟达更具统治力的是其算力生态,这一优势主要建立在软件基础上。与硬件不同,软件具备强网络效应,能形成极高的用户黏性。 CUDA是英伟达积累近二十年的GPU并行计算编程平台,提供成熟的开发调试工具、丰富的软件库与函数库,以及海量的文档与教程支持,极大提升了开发效率。全球超过400万开发者通过贡献开源工具、反馈问题、分享实践,持续巩固CUDA生态的活力。 英伟达的其他软件工具,如大模型开发框架NeMo Framework、企业AI部署平台NVIDIA AI Enterprise等,也与CUDA生态深度协同,进一步增强用户黏性。 在学术界,最新AI研究成果(如Transformer架构变体)的开源代码通常仅在英伟达GPU上经过验证。若使用其他芯片,研究者往往需自行编写底层适配代码,这使英伟达成为最早支持前沿技术的平台。 此外,全球高校计算机专业与AI实验室的教学与实验设备几乎均采用英伟达GPU。应届AI工程师大多已熟练掌握CUDA编程,若企业转向其他芯片平台,将面临高昂的员工培训成本。 这种生态优势具有显著延展性。例如,主流深度学习框架PyTorch与TensorFlow虽由Meta与谷歌主导,却与CUDA生态深度集成,依托其并行计算能力服务数百万开发者,反过来也强化了CUDA的行业地位。 生态优势本质是一种网络效应。在自然市场中,弱势网络难以与强势网络竞争,因为网络价值随规模扩大呈超线性增长(类似梅特卡夫定律)。英伟达一旦在强网络效应竞争中胜出,便构筑起深厚的护城河。 **相对弱势领域** 在推理场景中,算力需求较训练大幅降低。一个万卡训练的模型在部署时可能仅需数张至数十张卡,因为推理仅需前向传播计算,显存压力也显著减轻。 因此,对推理芯片的互联能力要求下降,部分场景甚至可通过模型蒸馏、量化实现单卡部署,如智能驾驶芯片。 在推理领域,英伟达的生态优势有所减弱。训练完成的模型已成固定算法框架,对开发环境的依赖性降低。此外,行业已形成成熟的跨平台迁移方案,可将英伟达训练的模型转换为ONNX等中间格式,再编译部署至其他算力平台。 理论上,英伟达在推理市场的统治力不如训练领域,但这仅是相对而言。实际上,英伟达仍占据推理市场超70%的份额,因为在综合考虑性能、价格、稳定性、开发与迁移成本后,其产品仍具备较高性价比。 据某大型科技公司工程师反馈,将模型从英伟达平台迁移至其他品牌集群,可能导致开发周期延长约6个月,成本增加40%。 **潜在的挑战者** 任何与英伟达的竞争都需面对技术与生态的双重挑战。 由于生态壁垒高于技术壁垒,挑战者有两种选择:若无法避开生态劣势,则必须在技术上实现显著超越;若技术优势不明显,则需借助非市场因素形成保护性市场,避免与英伟达生态正面竞争。 在美国,英伟达的主要挑战来自定制化AI芯片(ASIC)。例如,谷歌最新发布的大模型Gemini 3完全基于其自研TPU训练。ASIC与GPU的竞争关键在于:为提升计算效率而牺牲灵活性是否值得。 从CPU到GPU,再到TPU为代表的ASIC,发展路径类似生物演化——从通用走向特化。CPU通用性最强,GPU为图形渲染优化,通过集成数千个简易核心擅长并行计算,后被发现适用于AI任务。ASIC则进一步专精于AI计算(如矩阵乘法、卷积运算),在效率与功耗上更具优势,但对算法变动的适应性较弱。 这类技术挑战短期内难以撼动英伟达,因为技术差距并不悬殊,而生态劣势却是全方位的。 在中国市场,英伟达面临的挑战更为根本。 美国政府对华芯片出口限制使中国市场成为“受保护”的市场,英伟达的生态优势难以施展。中国的大模型厂商、云服务商、开发者原本多依赖英伟达生态,如今即使有意使用CUDA,也面临诸多限制。 禁令短期内给中国AI产业带来阵痛,国产算力芯片与生态尚不成熟,导致算力效率下降。但对国内算力芯片企业而言,这也是重要的发展窗口。在正常市场环境下,华为等厂商难以说服开发者放弃成熟的CUDA,转向其CANN(计算架构神经网络)等新兴生态。 当前,许多开发者开始接触CANN等平台,过程中不乏对技术问题、学习成本与适配难度的反馈。但随着更多开发者参与,这些生态将逐步完善。一旦学习与迁移成本被消化,即使未来禁令解除,部分开发者也可能选择留在本土生态。 这种因地缘政治导致旧生态网络效应减弱、新本土网络崛起的现象,在互联网时代屡见不鲜。芯片行业虽技术门槛更高,但生态的网络效应逻辑与之高度相似。 因此,美国对华芯片禁运的本意是限制中国AI发展,却可能意外为英伟达培育出长期的强劲竞争对手。 在本研究即将完成时,美国政府对华芯片出口政策出现调整。2025年12月8日,美方批准英伟达向中国出售较先进的H200芯片,但附加政府分成与客户审查条款。这反映出美方意识到全面禁运可能削弱英伟达长期竞争力,转而通过梯度管控维持技术代差与生态影响力。 中国市场与政策应如何应对?此前特供版H20与国产领先AI芯片性能相近,而H200算力约为H20的6倍,显存容量约1.5倍,综合训练性能领先数倍至十倍以上。 理性策略既非完全禁止,也非无条件放开。为提升整体AI竞争力,应允许必要采购,如国产芯片短期内无法满足的核心AI项目、前沿大模型训练与探索性研究等。同时,也需通过机制设计鼓励国产AI芯片发展,为其生态建设提供相对受保护的市场空间。 **战略思考** 在看待AI等科技竞争时,需避免陷入单纯的“国产替代”思维。若仅以替代解决“卡脖子”问题,可能引发他国对华技术的类似担忧,导致全球科技体系走向封闭。 与英伟达的竞争本质是生态之争,因此开源思维可能是更优解。 开源战略有助于构建超越国界的全球性协作网络,汇聚人才与创新资源,打破技术脱钩困境。 华为于今年8月宣布开源其CANN与Mind工具链,正是这一思路的体现。开源生态能加速汇聚全球开发者智慧,快速修复漏洞、优化功能。理论上,开源架构也有助于国内外芯片厂商参与生态共建,尽管目前因芯片架构差异实现难度较大。 (作者刘劲系大湾区人工智能应用研究院理事、特聘专家,长江商学院会计与金融学教授;段磊系该研究院研究总监;李嘉欣系研究员) 免责声明:本文观点仅代表作者本人,供参考与交流,不构成任何投资或决策建议。

有话要说...