
基于具有 1750 亿个参数的 GPT-3,也是目前公开发布的最大规模语言模型之一,ChatGPT 具有广泛的语言理解能力,自然流畅的语言生成表现,以及更快的推理速度,能够在回答问题、搜集资料、写大纲、写代码等自然语言处理任务上,超越其他先进的模型和人类表现。
需要注意的是,ChatGPT 在全球快速收割用户的同时,其背后提供算力支持的英伟达也赚得盆满钵满。
据花旗集团预估,英伟达 ChatGPT 相关业务一年内销售额达到 30 亿 ~110 亿美元。英伟达 2022 四季度及年业绩报告显示,其 AI 收入创下历史新高,四季度收入 36.2 亿美元,同比增长 11%,全年收入增长 41%,至历史新高 150.1 亿美元。
此前 OpenAI 在 2021 年的估值约为 140 亿美元,在 2023 年 1 月 23 日微软追加投资数十亿美元后,OpenAI 的估值实现了翻倍,目前已经达到了 290 亿美元。
英伟达在 2023 年初市值约为 3600 亿美元,随后凭借 ChatGPT 的火爆,市值在两个月内增长超过 2100 亿美元,截止 2 月底市值已经达到 5700 亿美元,
仍在增长的AI巨浪

相比于回答用户问题的推理阶段,ChatGPT 的日常训练对于 GPU 算力的要求更高。在训练阶段,ChatGPT 需要反复地进行前向传播和反向传播操作,用来优化模型参数。
前向传播是指从输入数据开始,按照神经网络的结构逐层计算,直到得到输出结果的过程。具体到 ChatGPT 的训练中,前向传播是就根据当前的网络参数和输入文本,计算出每个单词的概率分布。
反向传播是指通过计算损失函数关于每个参数的梯度,从输出结果开始向网络输入逐层传播,更新神经网络的权重和偏置值,提高网络的准确率。
在 ChatGPT 的训练过程中,前向传播和反向传播一般会以百万次甚至上亿次多次迭代执行,因此只有大量的、高算力的 GPU 集中运算,才能达到要求。公开数据显示,GPT-3 单次训练成本就高达 460 万美元。
根据中信证券研究部数据,此前 GPT-3 在训练中使用了微软专门建设的 Al 计算系统,由 1 万枚英伟达 GPU 组成高性能网络集群。
目前英伟达主流的 AI 芯片中,A100 芯片单颗市场售价约为 8 万元。而 A100 的升级版,最新的 H100 芯片单颗售价约为人民币 24 万元。这意味着,仅仅是采购芯片一项,ChatGPT 就需要向英伟达支付 10 亿元以上。
据 Investing.com 报道,GPT-3 时代 1 万枚的英伟达 GPU,已经随着 ChatGPT 升级到 GPT-3.5,增至 2.5 万枚,且增长仍在继续。随着谷歌、百度以及更多的类 ChatGPT 项目入局,以 ChatGPT 为代表的 AI 算力和 GPU 相关需求,将会继续提高。
垄断靠生态,绑定靠产品

之所以能成为 ChatGPT 的独家供应商,主要因为英伟达在 GPU 领域完整的生态系统、多年的技术积累和产品表现,这些优势为其在 AI 领域提供了支持和应用基础。
其中 CUDA(Compute Unified Device Architecture)架构是由英伟达开发的,这是一种 GPU 并行计算平台和编程模型,可以帮助开发者更加高效地使用 GPU 进行并行计算。
研究机构 Gartner 分析师盛陵海称 "CUDA 是通用 GPU 的开放平台,行业开发者已经用惯了,就好像 Office 软件,虽然也有替代产品,但是几乎很少有人选择替代。"
在 CUDA 问世之前,英伟达的 GPU 仅是用于在屏幕上呈现图像的图形处理单元。然而,CUDA 技术的推出让 GPU 不仅能够进行图像处理,还能够进行高性能计算,从而使 GPU 具备了解决复杂计算问题的能力。如今除了电脑,智能汽车、机器人、VR 头显,各种计算平台都在使用 GPU。
2006 年问世之初,英伟达就开始了对 CUDA 系统在 Al 领域进行大力投入和推广。彼时,CUDA 系统年营业额只有 30 亿美元,但英伟达每年需要投入 5 亿美元的研发经费更新维护;另一方面,为迅速实现对市场的占领,英伟达还为美国大学及科研机构免费提供 CUDA 系统。
建立了通用 GPU 的最大开放平台的同时,英伟达也在通过领跑行业的产品绑定超级应用。
例如,NVIDIA H100 拥有 800 亿个晶体管,单芯片设计,采用台积电(TSMC)的 4nm 工艺制造。英伟达 H100 的设计是针对 ChatGPT 所采用的 Transformer 类预训练模型定向优化的设计,提出了 Transformer Engine,集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及 Transformer 神经网络动态处理能力,可以缩短此类机器学习模型的训练时间从几周至几天。
此外基于 H100,英伟达还推出了 DGX H100,专用于训练,推理和分析的通用高性能 AI 系统,集成了 8 个 H100 GPU,拥有总计 6400 亿个晶体管,总 GPU 显存高达 640GB。
而英伟达的竞争对手们,AMD 和 Intel 由于缺乏类似 CUDA 的生态支持,且本身产品性能也比不上 NVIDIA H100,因而在 AI 芯片领域只能与英伟达的距离渐行渐远。
此前,AMD 和 Intel 也分别建立了 ROCm 和 one APl,试图建立自己的生态,摆脱英伟达的 CUDA,但最终这一努力并没有成功。此外,AMD 和英特尔目前还没有针对 Transformer 类预训练模型定向优化的 GPU。这意味着,英伟达将在很长时间内成为 ChatGPT 的唯一 GPU 供应商。
(本文首发钛媒体 App,作者 / 吴泓磊,编辑 / 饶翔宇)
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体 App