大语言模型热潮隐藏算力危机：国产AI芯片已“小试牛刀”

来源：新京报贝壳财经　发布时间： 2023-04-15 11:14:38　编辑：夕歌

导读：国产大语言模型百花齐放背后，国产AI芯片正默默前行

国产大语言模型百花齐放背后，国产AI芯片正默默前行。

受ChatGPT热潮的影响，国内各大科技公司都开始研发自己旗下的大语言模型，百度“文心一言”、阿里云“通义千问”以及360仅做展示但还未定名的“360AI”……国产GPT“百花齐放”的背后，则是大语言模型的算力“底座”——深度学习架构和AI芯片。

就如同ChatGPT背后是英伟达经营已久的CUDA（统一计算设备架构）和A100芯片，国内大语言模型飞速发展下，半导体产业又会受到怎样的影响？面对和各类AI框架深度绑定的CUDA和英伟达这座“高山”，国产AI芯片又该何去何从？

4月13日，有从事科技战略研究的人士告诉贝壳财经记者，A100被断供后，目前A800虽然理论上可以购买，但是价格水涨船高，且“有价无市”，库存告急，实际上已经难以买到。

贝壳财经记者以匿名方式咨询百度、阿里云相关一线工作人员得知，目前百度大模型部分使用昆仑芯，要想未来有更多国产替代还需要等昆仑芯3代发布，发布时间点预计在2024年初。而阿里云则面向B端推出了一系列可用于人工智能计算的芯片以及液冷数据中心等算力支持服务产品，除含光800外，倚天710也可用于为人工智能大模型提供算力。

大语言模型应用落地需消耗多少算力？

当前，人工智能所需要的云端训练和云端推理AI芯片主要由英伟达主导，如ChatGPT 就使用了英伟达的HGX主板和A100芯片，其预训练和云端推理需要高达3万枚A100（单价超1万美元）并行运算作为算力支撑。

爱集微咨询业务部资深分析师钱禹告诉贝壳财经记者，类GPT应用的落地是以大规模的数据和巨大的算力资源消耗来实现的，AI类芯片设计公司、算法公司或深度学习框架公司、围绕数据中心基础设施建设的公司、基于分布式数据中心或异构数据中心的公司等将受益类GPT应用的发展。

钱禹从事存储器和大芯片产业研究多年，他告诉贝壳财经记者，一个ChatGPT的算法模型从预训练模型的构建，再到监督学习和人工干预学习的针对性训练，需要耗费大量的数据和运算资源，这对数据中心基础设施建设的要求是非常高的。“我们还要考虑一个问题是，训练模型是无法直接落地到实际应用，成熟的训练模型还需要转化成推理模型，随后再布置到推理数据中心。暂且不考虑推理模型的部署，仅训练模型的部署就需要上万颗英伟达A100加速卡，一次模型训练的成本远超千万美元。”

数据显示，ChatGPT的总算力消耗约为3640PF-days（即假如每秒计算一千万亿次，需要计算3640天），需要7至8个投资规模30亿、算力500P的数据中心才能支撑运行。有声音认为，即便是部署1万块英伟达A100显卡，也要持续不间断运算10年才能达到这样的高度。

中泰证券发布研报称，算力是AI发展的底层土壤。在ChatGPT等概念影响下，AIGC关注度火热。未来越来越多AI应用的落地离不开庞大算力的支撑，因此也将推动算力产业链快速增长。

根据wind数据，代表国产内存芯片叠加替代及AI算力双重机遇的“A股存储器指数”可反应内存及NAND存储相关公司的整体表现，今年年初至4月5日，该指数累计上涨43.46%。

OpenAI曾预计，人工智能科学研究要想取得突破，所需要消耗的计算资源每3到4个月就要翻一倍，资金也需要通过指数级增长获得匹配，这也被称为人工智能领域的“摩尔定律”。

钱禹认为，随着ChatGPT的迭代，其需要容纳更多的语种以及古诗词、文言文等内容，需要对其算法架构进行更多的参数设计和算法层数的微调，今后的ChatGPT将会耗费更多的数据资源和训练硬件资源，“除此以外，我们还应当考虑数据中心中服务于ChatGPT训练资源的非GPU类芯片，如ASIC或FPGA类专用芯片、服务器CPU芯片以及服务于分布式训练硬件架构的光模块通信芯片，这些芯片的需求也会随着训练资源的提升而提升。”

在他看来，在ChatGPT带来的热潮中，首先受益的是AI类芯片设计公司，因为一切算法迭代的都是以训练为途径的，而训练的方法论就是需要硬件资源，AI类芯片公司会基于GPT类应用开发更高效和更灵活的硬件资源。第二类受益的公司是算法公司或深度学习框架公司，因为GPT类应用的全生命周期生产都需要深度学习架构公司在开发工具方面上给予支持。

今年3月，英伟达创始人兼CEO黄仁勋就在GTC开发者大会上发布了针对部署大语言模型的新版H100芯片，并宣布该产品与“当前唯一可以实际处理ChatGPT的HGX A100相比，现在一台搭载四对H100和双NVLINK的标准服务器速度能快10倍，可以将大语言模型的处理成本降低一个数量级。”

在各地大模型训练如火如荼，英伟达“开足马力”为此提供算力支持时，国内GPU芯片企业能否“分一杯羹”呢？

断供危机：国产芯片需翻越英伟达“高山”

持续关注半导体产业发展的陈川对贝壳财经记者表示，从某种意义上讲，计算成本已经成为阻碍大语言模型发展的核心问题，而且一个残酷的现实是，在国内大模型训练潮涌之时，大语言模型训练的“利器”——英伟达GPU芯片却面临断供的危机。

根据中国信通院的数据，2021年第四财年英伟达占据了全球95.7%的GPU算力芯片市场份额。但早在2022年8月，英伟达就受美方限制对中国区客户断供高端GPU芯片，其中用于大语言模型训练的A100和H100赫然在列。

“国内很多科技企业离不开A100芯片，有企业去年下半年起就持续在市场中‘抢芯片’，甚至为获得芯片购买能拆出A100的整机产品。虽然英伟达特意为中国区客户提供了可以代替A100的A800芯片，但其数据传输速度被限制了，功耗也增加了。”陈川说。

谁有可能接棒英伟达在中国的市场份额？

新京报贝壳财经记者不完全统计，国内自主研发AI芯片的国内企业包括海光信息、寒武纪、龙芯中科、壁仞科技等，一些大厂也拥有自研的AI芯片，如百度昆仑芯片、阿里含光800分别支持了各自的大语言模型的训练。

英伟达建立护城河并非一朝一夕。除芯片本身，英伟达从2006年起就开始着手开发CUDA（统一计算设备架构），通过 CUDA 编程，可以充分利用 GPU 的并行处理能力，从而大幅提升计算性能。AI 发展的数十年间，英伟达通过对 CUDA 开发和社区的持续投入，CUDA 和各类AI框架深度绑定。这也导致当前排名靠前的AI框架，使用英伟达显卡训练是最好的选择。

“在AI芯片端，我国和国外的差距主要有两个方面，第一个方面是来自芯片设计维度和应用维度，中国的设计公司虽然在设计能力上逐步缩小与海外巨头的差距，但AI芯片的软件生态建设、基础架构等方面还是掌握在巨头手中，如英伟达CUDA，目前我们还不能完全在硬件编程模型上找到CUDA的替代方案。第二个方面是在地缘性政治的背景下，国内无法在AI芯片的全产业链中实现独立自主，卡脖子的方面还很多，如EDA工具，代工制造和先进封装领域。”钱禹说。

面对如此稳固的“护城河”，国内企业需想尽一切办法越过英伟达“高山”。

其中，兼容CUDA生态是可选路径之一。海光信息就在科创板上市招股书中表示，海光DCU系列产品以GPGPU架构为基础，兼容通用的“类 CUDA”环境以及国际主流商业计算软件和人工智能软件，软硬件生态丰富，可广泛应用于大数据处理、人工智能、商业计算等应用领域。

此外，国产扶持也是路径之一。北京某G端人工智能项目负责人告诉贝壳财经记者，国内一家AI芯片制造商是其长期客户，“如果不这样，国产芯片不可能做得起来，因为外国企业有自己的软件架构，当整个产业都适配这个架构，形成了一个完整生态的时候，从零起步打造自己的架构就会‘费力不讨好’，所以我们只能指定国内的芯片公司负责我们的项目，通过这种方式扶持国产芯片。”

中信证券近期发布研报称，国内GPGPU发展水平落后海外5到10年，“自研IP越多，芯片设计上越有把握，产品的差异化更明显。但相对而言，资金、人员、时间上的成本投入也更高。 GPU IP自研需要36-48个月以及200个工程师，而采用外购IP的方式，可以减少12-18个月开发周期。”

陈川告诉贝壳财经记者，中国的芯片从业者并不缺乏奋勇争先的梦想，但在AI芯片领域以超越英伟达为目标进行市场宣发、制定战略天然就有风险。如壁仞科技曾聚集了一众有英伟达、AMD、华为海思任职背景的芯片研发“大牛”，并在去年8月发布了首款基于台积电7nm工艺制造的通用GPU芯片BR100，号称在性能上能够媲美英伟达的H100，但截至目前还缺乏市场商业化认可，公司内部也陷入了裁员、人事变动等风波，今年3月27日图形GPU产品线总经理焦国方离职。

AI芯片国产化替代迎来历史机遇？

不过，从众多已开始内测的国内大语言模型产品来看，国产AI芯片已经有了“小试牛刀”的机会。根据公开资料，“文心一言”和“通义千问”都已经开始尝试使用国产AI芯片。

3月17日，李彦宏在亚布力中国企业家论坛上分享，昆仑芯片现在很适合做大模型的推理，将来会适合做训练。

东海证券发布研报称，文心一言在预训练阶段就已导入多家国产AI芯片，效果不俗。高算力AI芯片是人工智能时代的关键基础设施，相关出口管制尽管对我国AI产业发展造成了一定阻碍，但也同时给予了自主AI芯片国产化替代的历史机遇，因此，我们建议关注A股AI算力芯片和GPU领域的相关标的。

阿里云推出的“通义千问”则使用了自主研发的含光800芯片。需要注意的是，“通义千问”在回答贝壳财经记者提出的问题时生成答案称，含光800是一款专门为分布式计算和人工智能任务设计的芯片，“我的训练是基于阿里巴巴达摩院在大规模分布式计算和人工智能方面的技术积累和实践经验来进行的。”

钱禹对贝壳财经记者表示，以类GPT应用的模型发展维度来看，一个模型从初级到中级，最终变得成熟，其算法架构所需的参数量是几何级数的成长。为应对其所带来的挑战，针对GPT类应用首先也会迎合数据中心的异构化的部署。面对如此海量的数据和众多的参数，数据中心的设计一定是按照分布式架构来设计，并且会合理部署CPU、GPU、ASIC、FPGA等计算资源，对模型进行逐级训练。

钱禹认为，除了芯片设计公司和深度学习框架公司，能因ChatGPT热潮而受益的还有围绕在数据中心基础设施建设的公司，包括数据中心托管和租赁公司；围绕着数据中心建设，基于分布式数据中心或异构数据中心的光模块、光通信公司、存储器解决方案公司；业务支援体系公司，如支持绿色数据中心建设的液冷、可再生能源等方面的公司。

民生证券3月19日发布研报称，虽然全球AI芯片市场被英伟达垄断，然而国产AI算力芯片正起星星之火，投融资热度高企。根据电子发烧友统计，2022年多家AI芯片公司获得大额融资，其中摩尔线程达15亿元、天数智芯超10亿元、沐曦达10亿元。

政策层面，2月27日国务院印发《数字中国建设整体布局规划》，《规划》提出要夯实数字基础设施，民生证券认为，数字中国基础设施的建设有望拉动以数据中心、超算中心、智能计算中心为代表的算力基础设施建设，从而带动服务器与AI算力芯片的需求快速增长。同时，为构筑自立自强的数字技术创新体系，上游AI芯片作为算力基础，自主可控需求凸显，数字中国建设对AI芯片国产化提出新要求。

根据IDC提供的数据，2021年中国AI投资规模超100亿美元，2026年将有望达到267亿美元，全球占比约8.9%，排名第二，其中AI底层硬件市场占比将超过AI总投资规模的半数。中泰证券对此发布研报表示，AI发展的海量数据对数据处理提出极高要求，AI芯片需求快速增长，看好国产AI芯片供应商在产业创新趋势向上以及国产替代背景下进入快速增长通道。

记者罗亦丹

标签：大语言模型算力危机国产AI芯片