第21版:TMT 上一版3  4下一版
 
版面导航

第01版
头版

第02版
要闻

第03版
特别报道
 
标题导航
首页 | 版面导航 | 标题导航
2023年05月22日 星期一
3 上一篇 放大 缩小 默认
AI“大行其道”英伟达“坐享其成”

    英伟达也借这场“AI军备竞赛”之机赚足了“钱包”。

    视觉中国/图

    本报记者秦枭北京报道

    ChatGPT在全球的关注度持续火热,再次将AI产业推到聚光灯下,科技巨头争相谋局落子,继微软、谷歌之后,国内企业百度、阿里巴巴等也先后发布大模型,并进行用户测试和企业应用接入。随着AI产业迎来“iPhone时刻”,算力需求正在持续释放,以AI服务器核心零部件GPU(图像处理器、加速芯片)为代表的供给端走俏,其价格也在不断上涨,而在AI芯片GPU市场占据绝对优势的英伟达也赚得盆满钵满。

    多位业内人士在接受《中国经营报》记者采访时表示,大型模型通常需要庞大的算力和存储资源来进行训练,GPU已成为AI加速芯片通用性解决方案,越来越多的企业和个人开始使用GPU来训练大型深度学习模型。这种需求的增加可能导致GPU的价格上涨,从而导致显卡价格的上涨。此外,由于供应链问题、半导体短缺等因素的影响,显卡价格的波动也可能受到一定程度的干扰。

    英伟达大秀肌肉

    目前主流AI厂商都进入了“千亿参数时代”,多采用了英伟达的GPU。

    AI场景需要多核、高并发、高带宽AI芯片。AI芯片,也被称为AI加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。当前,AI芯片主要分为GPU、FPGA,及以TPU、VPU为代表的ASIC芯片,而GPU凭借其高性能、高灵活度特点成为AI加速方案首选。据IDC数据,预计到2025年,GPU仍将占据AI芯片80%市场份额。

    资料显示,2018年OpenAI开发的GPT-1的预训练大模型参数为1.1亿,2019年发布的GPT-2提高至15亿,2020年GPT-3的预训练大模型参数已经提高至1750亿。而为了训练ChatGPT,Ope-nAI构建了由近3万张英伟达V100显卡组成的庞大算力集群,GPT-4更是达到了100万亿的参数规模,其对应的算力需求同比大幅增加。

    TrendForce分析认为,要处理近1800亿参数的GPT-3.5大型模型,需要2万颗GPU芯片,而大模型商业化的GPT需要超过3万颗。GPT-4则需要更多。

    不仅如此,目前主流AI厂商都进入了“千亿参数时代”,多采用了英伟达的GPU。以科大讯飞星火认知大模型为例,其使用了英伟达的T4Tensor Core GPU进行训练。除了T4Tensor Core GPU,科大讯飞还使用了其他类型的GPU和其他硬件设备来支持其深度学习平台的开发和应用。这些硬件设备包括英伟达的PaddlePaddle、NVIDIATesla V100、AMDEPYC等,以及多种CPU、内存、网络设备等。

    昆仑万维集团CEO方汉也表示:“超过千亿级别的大模型,它的训练大概需要1000—2000张A100的卡,没有2000张A100的卡,实验都做不了。”

    招商证券指出,从通用服务器到AI服务器,一个最显著的变化就是GPU取代了CPU成为整机最核心的运算单元以及价值量占比最大的部分,传统服务器通常至多配备4个CPU+相应内存和硬盘,在AI服务器中,通常是2颗CPU+8颗GPU,部分高配4U服务器中甚至可以搭配16颗GPU,预计AI服务器中GPU+CPU+存储的价值量占比有望达到80%以上的水平。

    据统计,英伟达当前在售的用于大模型训练的GPU卡至少有9款型号,其中高性能的有4款,分别是V100、A800、A100及H100。而此轮AI“军备竞赛”也让用于上述显卡的价格一路高涨。其中,A100此前售价在1.5万美元(约合人民币10.35万元),但目前在一些平台上,此款显卡价格上涨到15万元左右。

    英伟达也借机赚足了“钱包”。TrendForce数据显示,如果以英伟达A100显卡的处理能力计算,GPT-3.5大模型需要2万块GPU来处理训练数据。目前英伟达 A100显卡的售价在10000~15000美元之间,预估英伟达可以赚3亿美元(约20多亿元人民币)。

    值得注意的是,英伟达还在源源不断地为这场军备竞赛输送弹药。在此前GTC开发者大会上,英伟达推出了新的HoppperCPU——配有双GPUNVLink的H100NVL,这是专门针对算力需求巨大的ChatGPT而设计的显卡,拥有夸张的188GB HBM3内存(每张卡94GB)。

    不过,即使价格上涨,目前市面上几乎“一卡难求”。一位业内人士对记者表示,客户对英伟达A100/H100芯片需求强劲,后者订单能见度已至2024年,更紧急向代工厂台积电追单。

    国产厂商的机遇

    目前中国GPU开发者大多使用国外厂家提供的IP,自主性不高,不过经过多年沉淀是能够实现国产替代的。

    虽然国内外的大模型项目接连落地,但除了百度、阿里巴巴等企业采用自研芯片外,国内大多数企业仍难求高端GPU。据透露,国内可用于训练AI大模型的A100大约有4万—5万个。

    英伟达在去年收到美国政府的通知,通知称:“若对中国(含中国香港)和俄罗斯的客户出口两款高端GPU芯片——A100和H100,需要新的出口许可。”不仅如此,该许可证要求还包括未来所有的英伟达高端集成电路,只要其峰值性能和芯片间I/O性能均大于或等于A100的阈值,以及包括这些高端电路的任何系统,都被纳入许可证限制范围。

    不过,英伟达针对中国客户推出了替代型号A800,与原有的A100系列计算卡相比,A800系列的规格基本相同,比较大的区别在于NVLink互连总线的连接速率,前者为600GB/s,后者限制在了400GB/s。综合使用效率只有A100的70%左右。前不久英伟达还发布了特供版的H800,作为其旗舰芯片H100的替代版。

    4月14日,腾讯云正式发布新一代HCC(High-Performance Computing Cluster)高性能计算集群。据悉,该集群采用腾讯云星星海自研服务器,搭载英伟达最新代次H800GPU,H800基于Hopper架构,对跑深度推荐系统、大型AI语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与A800相比,H800的性能提升了3倍,在显存带宽上也有明显的提高,达到3TB/s。

    伴随着近期宏观经济回暖以及国内互联网企业纷纷加大AI算力布局,PC和服务器的需求上升有望为国内GPU市场带来整体拉动效应。

    目前,国内已涌现出一批优秀的GPU设计和制造厂商。

    其中,海光信息目前已经成功掌握高端协处理器微结构设计等核心技术,并以此为基础推出了性能优异的DCU产品。其深算一号产品和英伟达A100及AMD高端GPU产品(MI100)进行对比,单芯片产品基本能达到其70%的性能水平。

    值得注意的是,上述业内人士表示,虽然国内的GPU厂商取得了一些成绩,但是由于GPU研发难度大、开发周期长,例如A100,英伟达只用了三个月的时间便研发出替代方案,而国内却并不多见。而且目前中国GPU开发者大多使用国外厂家提供的IP,自主性不高,不过经过多年沉淀是能够实现国产替代的。

3 上一篇 放大 缩小 默认
  © 版权所有 中国经营报社 合作伙伴:方正爱读爱看网
   第01版:头版
   第02版:要闻
   第03版:特别报道
   第04版:工经青年学者论坛
   第05版:金融
   第06版:财富
   第07版:金融
   第08版:资管
   第09版:银行
   第10版:银行
   第11版:银行·新金融
   第12版:保险
   第13版:区域·地产
   第14版:区域经济
   第15版:地产·家电
   第16版:地产
   第17版:地产
   第18版:医药·健康
   第19版:能源·化工
   第20版:游戏
   第21版:TMT
   第22版:TMT
   第23版:TMT
   第24版:TMT
   第25版:车视界
   第26版:车视界
   第27版:车视界
   第28版:物流·汽车
   第29版:快消
   第30版:快消
   第31版:快消
   第32版:商业案例
三星大变局:以AI重构商业版图
AI“大行其道”英伟达“坐享其成”