中国经营报数字报刊平台

AI“大行其道”英伟达“坐享其成”

英伟达也借这场“AI军备竞赛”之机赚足了“钱包”。

视觉中国/图

本报记者秦枭北京报道

ChatGPT在全球的关注度持续火热，再次将AI产业推到聚光灯下，科技巨头争相谋局落子，继微软、谷歌之后，国内企业百度、阿里巴巴等也先后发布大模型，并进行用户测试和企业应用接入。随着AI产业迎来“iPhone时刻”，算力需求正在持续释放，以AI服务器核心零部件GPU（图像处理器、加速芯片）为代表的供给端走俏，其价格也在不断上涨，而在AI芯片GPU市场占据绝对优势的英伟达也赚得盆满钵满。

多位业内人士在接受《中国经营报》记者采访时表示，大型模型通常需要庞大的算力和存储资源来进行训练，GPU已成为AI加速芯片通用性解决方案，越来越多的企业和个人开始使用GPU来训练大型深度学习模型。这种需求的增加可能导致GPU的价格上涨，从而导致显卡价格的上涨。此外，由于供应链问题、半导体短缺等因素的影响，显卡价格的波动也可能受到一定程度的干扰。

英伟达大秀肌肉

目前主流AI厂商都进入了“千亿参数时代”，多采用了英伟达的GPU。

AI场景需要多核、高并发、高带宽AI芯片。AI芯片，也被称为AI加速器或计算卡，即专门用于处理人工智能应用中的大量计算任务的模块。当前，AI芯片主要分为GPU、FPGA，及以TPU、VPU为代表的ASIC芯片，而GPU凭借其高性能、高灵活度特点成为AI加速方案首选。据IDC数据，预计到2025年，GPU仍将占据AI芯片80%市场份额。

资料显示，2018年OpenAI开发的GPT-1的预训练大模型参数为1.1亿，2019年发布的GPT-2提高至15亿，2020年GPT-3的预训练大模型参数已经提高至1750亿。而为了训练ChatGPT，Ope-nAI构建了由近3万张英伟达V100显卡组成的庞大算力集群，GPT-4更是达到了100万亿的参数规模，其对应的算力需求同比大幅增加。

TrendForce分析认为，要处理近1800亿参数的GPT-3.5大型模型，需要2万颗GPU芯片，而大模型商业化的GPT需要超过3万颗。GPT-4则需要更多。

不仅如此，目前主流AI厂商都进入了“千亿参数时代”，多采用了英伟达的GPU。以科大讯飞星火认知大模型为例，其使用了英伟达的T4Tensor Core GPU进行训练。除了T4Tensor Core GPU，科大讯飞还使用了其他类型的GPU和其他硬件设备来支持其深度学习平台的开发和应用。这些硬件设备包括英伟达的PaddlePaddle、NVIDIATesla V100、AMDEPYC等，以及多种CPU、内存、网络设备等。

昆仑万维集团CEO方汉也表示：“超过千亿级别的大模型，它的训练大概需要1000—2000张A100的卡，没有2000张A100的卡，实验都做不了。”

招商证券指出，从通用服务器到AI服务器，一个最显著的变化就是GPU取代了CPU成为整机最核心的运算单元以及价值量占比最大的部分，传统服务器通常至多配备4个CPU+相应内存和硬盘，在AI服务器中，通常是2颗CPU+8颗GPU，部分高配4U服务器中甚至可以搭配16颗GPU，预计AI服务器中GPU+CPU+存储的价值量占比有望达到80%以上的水平。

据统计，英伟达当前在售的用于大模型训练的GPU卡至少有9款型号，其中高性能的有4款，分别是V100、A800、A100及H100。而此轮AI“军备竞赛”也让用于上述显卡的价格一路高涨。其中，A100此前售价在1.5万美元（约合人民币10.35万元），但目前在一些平台上，此款显卡价格上涨到15万元左右。

英伟达也借机赚足了“钱包”。TrendForce数据显示，如果以英伟达A100显卡的处理能力计算，GPT-3.5大模型需要2万块GPU来处理训练数据。目前英伟达 A100显卡的售价在10000~15000美元之间，预估英伟达可以赚3亿美元（约20多亿元人民币）。

值得注意的是，英伟达还在源源不断地为这场军备竞赛输送弹药。在此前GTC开发者大会上，英伟达推出了新的HoppperCPU——配有双GPUNVLink的H100NVL，这是专门针对算力需求巨大的ChatGPT而设计的显卡，拥有夸张的188GB HBM3内存（每张卡94GB）。

不过，即使价格上涨，目前市面上几乎“一卡难求”。一位业内人士对记者表示，客户对英伟达A100/H100芯片需求强劲，后者订单能见度已至2024年，更紧急向代工厂台积电追单。

国产厂商的机遇

目前中国GPU开发者大多使用国外厂家提供的IP，自主性不高，不过经过多年沉淀是能够实现国产替代的。

虽然国内外的大模型项目接连落地，但除了百度、阿里巴巴等企业采用自研芯片外，国内大多数企业仍难求高端GPU。据透露，国内可用于训练AI大模型的A100大约有4万—5万个。

英伟达在去年收到美国政府的通知，通知称：“若对中国（含中国香港）和俄罗斯的客户出口两款高端GPU芯片——A100和H100，需要新的出口许可。”不仅如此，该许可证要求还包括未来所有的英伟达高端集成电路，只要其峰值性能和芯片间I/O性能均大于或等于A100的阈值，以及包括这些高端电路的任何系统，都被纳入许可证限制范围。

不过，英伟达针对中国客户推出了替代型号A800，与原有的A100系列计算卡相比，A800系列的规格基本相同，比较大的区别在于NVLink互连总线的连接速率，前者为600GB/s，后者限制在了400GB/s。综合使用效率只有A100的70%左右。前不久英伟达还发布了特供版的H800，作为其旗舰芯片H100的替代版。

4月14日，腾讯云正式发布新一代HCC（High-Performance Computing Cluster）高性能计算集群。据悉，该集群采用腾讯云星星海自研服务器，搭载英伟达最新代次H800GPU，H800基于Hopper架构，对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比，H800的性能提升了3倍，在显存带宽上也有明显的提高，达到3TB/s。

伴随着近期宏观经济回暖以及国内互联网企业纷纷加大AI算力布局，PC和服务器的需求上升有望为国内GPU市场带来整体拉动效应。

目前，国内已涌现出一批优秀的GPU设计和制造厂商。

其中，海光信息目前已经成功掌握高端协处理器微结构设计等核心技术，并以此为基础推出了性能优异的DCU产品。其深算一号产品和英伟达A100及AMD高端GPU产品（MI100）进行对比，单芯片产品基本能达到其70%的性能水平。

值得注意的是，上述业内人士表示，虽然国内的GPU厂商取得了一些成绩，但是由于GPU研发难度大、开发周期长，例如A100，英伟达只用了三个月的时间便研发出替代方案，而国内却并不多见。而且目前中国GPU开发者大多使用国外厂家提供的IP，自主性不高，不过经过多年沉淀是能够实现国产替代的。

	第01版：头版
	第02版：要闻
	第03版：特别报道
	第04版：工经青年学者论坛
	第05版：金融
	第06版：财富
	第07版：金融
	第08版：资管
	第09版：银行
	第10版：银行
	第11版：银行·新金融
	第12版：保险
	第13版：区域·地产
	第14版：区域经济
	第15版：地产·家电
	第16版：地产
	第17版：地产
	第18版：医药·健康
	第19版：能源·化工
	第20版：游戏
	第21版：TMT
	第22版：TMT
	第23版：TMT
	第24版：TMT
	第25版：车视界
	第26版：车视界
	第27版：车视界
	第28版：物流·汽车
	第29版：快消
	第30版：快消
	第31版：快消
	第32版：商业案例

	三星大变局：以AI重构商业版图
	AI“大行其道”英伟达“坐享其成”