ChatGPT 背后芯片之争:中国企业或将决定行业走向
<div id="content"><p></p><div class="img_box" id="id_imagebox_0" onclick=""><div class="content_img_div perview_img_div"><div align="center"></div></div></div>撰文 | 古 芯<p></p><p>编辑 | 杨博丞</p><p>题图 | IC Photo</p><p>ChatGPT 的诞生是 AI 行业发展的一个里程碑,让通用人工智能距离全面商用更进一步。ChatGPT 虽然属于生成式人工智能技术(AIGC)的一种,却可以训练其他 AIGC 产品,比如充当 AI 画图模型 Midjourney 的提示词分析师。</p><p>由于 ChatGPT 的能力过于突出,其母公司 2022 年 11 月发布 ChatGPT3.5 版本后,迅速吸引大量用户,同时也招来非议,最引人关注的莫过于全球首富马斯克,联合千人请愿全球停止研发类 ChatGPT 产品。</p><p>之所以说马斯克的呼吁吸引眼球,不是因为他反对研发类 ChatGPT 产品,也不是因为他全球首富的身份,而是因为他呼吁停止研发类 ChatGPT 产品之前,刚表态要自建团队,自备资金研发类 ChatGPT 产品;其次才是作为世界首富雄厚的财力,稍微出手,便囤了 10000 块 GPU 芯片。</p><p>马斯克对 ChatGPT 的表态看似矛盾,但是考虑到马斯克 2015 年还是 ChatGPT 母公司 OpenAI 的联合创始人,2018 年就被现任 CEO" 奥特曼 " 挤走,这种类似吃不到葡萄说葡萄酸的心里也就容易理解了。更何况马斯克一直站在新兴技术风口上,怎么可能容忍当今最新潮的技术和自己没关系?</p><p>只不过不止一次表态要切入人工智能(AI)赛道的马斯克,为何成立 AI 部门之前先抢了一万块 GPU(图形处理器)芯片?抢购的又是什么型号的芯片?马斯克买了这一万块芯片,会不会影响行业供需关系,国内 AI 企业会不会受到影响,最重要地的是,国内有没有能做 GPU 的企业,做到什么地步了?</p><p><strong>01.</strong></p><p><strong>GPU 如何搅动人工智能行业</strong></p><p>马斯克购买一万块 GPU 芯片,主要是因为 GPU 的性能决定了行业天花板,相比于通用的 CPU(中央处理器),GPU 在人工智能行业被细分到 "AI 芯片 " 领域,也就是针对 AI 算法做了特殊加速设计的芯片。</p><p>狭义的人工智能芯片,指的就是专门优化过的显卡。在人工智能刚驶入快车道的 2012 年,前谷歌计算机科学家 Alex Krizhevsky,使用深度学习 +GPU 的方案在 Image Net LSVRC-2010 图像识别大赛中,将识别成功率从 74% 提升至 85%,在行业内引起广泛关注。</p><p>GPU 行业龙头英伟达(NVIDIA)受此启发,投入大量人力物力又优化自家 GPU 的 CUDA 深度学习生态系统,有消息称短短 3 年内,公司 GPU 产品性能提升了 65 倍,甚至还推出了基于自家 GPU,覆盖后端训练至前端应用的全套方案。</p><p>众所周知,GPU 通常被用于图像处理任务,因为图像是由多个像素组成,GPU 想要高效完成图像处理任务,就需要大量可以完成独立运算的单元,厂商也会极尽可能,在芯片内放入更多独立计算核心,2018 年发布的英伟达 GTX2080TI 有 4352 个 CUDA 核心,到 2022 年发布的 4090 显卡 CUDA 核心增至 16384 个。本就具备同时大量独立计算的能力,所以只需要 CPU 给出正确的指令,GPU 自然可以迅速完成深度学习型 AI 产品所需要的超规模计算。</p><p>我们今天熟悉的 ChatGPT 已经迭代至第四代。以第一代 ChatGPT 为例,2018 年 6 月发布的 GPT-1 只在 8 个 GPU 上训练了一个月,当年运行 TensorFlow 单 GPU 深度学习研究,表现最佳的 GPU 是 GTX2080TI,参数量约为 1.17 亿,预测训练数据量仅有 5GB;2019 年 2 月发布的 GPT-2 预训练数据量增至 40GB,参数量达到了 15 亿,此时需要 256 个 Google Cloud TPU v3 上训练一周。</p><p>到 2020 年 5 月发布的 GPT-3,预训练数据量猛增至 45TB,参数量达到 1750 亿,需要在 355 个 GPU 上训练一年,且训练总成本达到 1200 万美元。GPT-3.5 也就是我们现在熟悉的 ChatGPT,和最新发布的 ChatGPT4.0 尚未公布相关数据,可以肯定的是,这两代 ChatGPT 均使用 GPU 训练。据华西证券数据,ChatGPT 母公司 OpenAI 已使用了约 2.5 万个英伟达的 GPU。</p><p>虽然微软已经将 OpenAI 收入麾下,并提供代号为 " 雅典娜 " 的人工智能芯片,但由于英伟达芯片在人工智能行业深耕多年,新玩家短期内很难对其形成威胁,未来需求仍将继续上升。</p><p></p><div class="img_box" id="id_imagebox_1" onclick=""><div class="content_img_div perview_img_div"><div align="center"></div></div></div>更为人熟知的 CPU,与 GPU 相比具有明显短板。因为 CPU 需要较高的通用性,较为高端的产品还需要在核心内构建 3 级缓存,所以单个核心会尽可能做的大而全,这就造成 CPU 可用于单独计算的核心明显少于 GPU,无法专精处理某一项任务,导致 CPU 在行计算、浮点计算以及矩阵运算方面存在明显的先天不足,这三个能力恰恰是完成 ChatGPT 这种深度学习型 AI 产品迫切需要的。<p></p><p>英伟达为了进一步提升旗下产品对 AI 深度学习的适应性,特意推出用于超级计算机的深度学习的 Tesla 显卡,最新型号为 A100,2022 年由于不可抗力,已经被禁止向中国出口,转而推出减配版 A800。</p><p>和消费级显卡相比,Tesla 显卡在完成图像处理、语音识别、机器学习、物体检测等任务时更快,根据相关测试,同样是 2020 年推向市场的 A100 和 3090,消费级显卡 3090 的 tensor core 只有 A100 的四分之一。在深度学习领域,无论是常见的 CNN 还是 ChatGPT 使用的 Transformer,大多数浮点计算量,都集中于依托 tensor core 计算的矩阵乘法上面,所以使用 A100 可以更快完成深度学习产品的开发。</p><p>基于上述分析,不难发现海外对中国禁运 A100 的意图,就是想要极大可能限制中国人工智能行业发展。</p><p><strong>02.</strong></p><p><strong>国产芯片露出微光</strong></p><p>短期来看,中国人工智能行业可以选择除 A100 外的次等 GPU,但是长期来看,必须要突破封锁,实现人工智能芯片国产化。</p><p>聚焦人工智能芯片领域,除 GPU 外,可用于 AI 算法的芯片还包括 CPU、FPGA、MLU、TPU,以及最新研究方向类脑芯片,后者由于概念较为先进,预计最快将于 2023 年成熟,尚不足以撼动 AI 芯片竞争格局。同时出于现实考虑,国内厂商在 GPU 芯片上和英伟达或 AMD、Intel 正面硬钢,毫无胜算。</p><p>CPU 方面虽然有近期龙芯有所突破,但是如前所述,CPU 并行算力不足,不适合应用于 AI 深度学习;FPGA 虽然已经用于 AI 算法训练,但是市场规模较小;最有可能替代 GPU 的就是 MLU、TPU 通用 AI 芯片。</p><p>但根据 ChatGPT 发展历程,Openai 在开发 GPT-2 时,曾经使用过谷歌 TPU 芯片,这是一种以 ASIC 作为底芯片的计算单元,专注于神经网络所需的矩阵运算的专用芯片,最先应用于 AlphaGo 中。</p><p>但是鉴于使用 ASIC 技术的芯片需要定制化,用户使用成本较 GPU 更高且更繁琐,OpenAI 开发 GPT-3 时重新选择 GPU,同时考虑到 GPT-3 模型参数量陡增,英伟达 CUDA 架构较其他产品具有明显优势,间接体现了英伟达 GPU 在人工智能芯片领域绝对龙头的位置,但这不代表其他产品就没有开发和应用价值。</p><p>首先是以谷歌 TPU、寒武纪 MLU 为代表的通用 AI 芯片,凭借针对特定算法深度优化和加速,可以在确定性执行模型的应用需求中发挥作用;FPGA 芯片依靠灵活多变的通用性,再加上可编程性,适用于开发周期较短的 AI 产品、传感器数据预处理工作以及小型开发试错升级迭代阶段等。</p><p>梳理国产芯片企业的格局,除寒武纪外,华为、国芯科技也布局了通用 AI 芯片(TPUMLU);安路科技、紫光国微、复旦微电等企业布局 FPGA 芯片,试图在这两个领域突破海外对我国 GPU 芯片的封锁。</p><p>目前寒武纪虽然尚未实现盈利,芯片市占率也不高,但芯片产品覆盖了云端智能芯片及加速卡、训练整机、边缘智能芯片及加速卡、终端智能处理器 IP 以及上述产品的配套软件开发平台。</p><p>另一个已经被应用于人工智能的算法训练的 FPGA 芯片领域,中国市场占有率最高的国产厂商是安路科技,目前公司在中低端产品线全面对标海外龙头企业,考虑到建立 FPGA 芯片软硬件生态体系行业壁垒较高,且用户更换产品验证周期长,安路科技未来有望依托现有市场扩大优势。</p><p>目前安路科技的产品广泛应于用网络通信、消费电子、工业控制和数据中心等领域均能保持稳健的成长,正在拓展无人机、自动驾驶、智慧城市等涉及人工智能的应用领域。</p><p>不过目前最值得关注的国产 AI 芯片企业应该是千芯科技,公司生产的存算一体 AI 芯片,通过自研存算一体技术,可提供能效比超过 10-100TOPS/W,在特定领域可以提供更大算力(1000TOPS 以上),优于其他类型 AI 芯片 10-40 倍的算力支持,应用场景包括自然语言处理,一旦量产,可用于类 ChatGPT 产品的研发。其他可以用于深度学习领域的国产芯片还包括北京君正的 AI 协处理器 T02,燧原科技的邃思 AI 训练和推理芯片等。</p><p></p><div class="img_box" id="id_imagebox_2" onclick=""><div class="content_img_div perview_img_div"><div align="center"></div></div></div>现阶段,寒武纪、安路科技、千芯科技等国产 AI 芯片企业的产品,虽然尚不具备替代英伟达的能力,但是也给中国人工智能行业带来一丝微光。回顾芯片行业的发展,无论是芯片设备还是芯片产品,只要中国企业突破封锁,就能迅速改变行业格局,这其中就包括一种最常见的 AI 芯片。<p></p><p><strong>03.</strong><strong>AI 芯片领域唯一的突破</strong></p><p>这种最常见的 AI 芯片就是存储芯片,日前国产存储芯片生产商长江存储凭一己之力,让海外大厂三星等企业的固态存储产品主动降价超 50%。长江存储芯片对三星带来的危机感,是典型的弯道超车,也是国产芯片产业链寻求的最佳发力点。</p><p>过去很长一段时间,存储芯片占全球芯片市场规模的 27%,但是竞争格局较为固化,尤其是中国市场,2018 年中国进口的 3120 亿美元的芯片中,存储芯片进口额高达 1150 亿美元,占比超 36%。</p><p>到 2020 年,中国存储芯片规模增至全球存储芯片的 31%,但是自给率不足 1%,竞争格局高度固化,韩国三星近乎垄断高端存储市场。</p><p>同时考虑到中国 AI 行业发展过于迅猛,有数据显示,预计到 2025 年,中国人工智能核心市场规模有望达到 4000 亿元,鉴于当前国内芯片行业发展现状,CPUGPU 等产品研发周期太长,想要短期获得国内市场的话语权难度极高,所以在国家大基金的领导下,长江存储加快 3D NAND 存储芯片研发进度,2019 年推出 64 层 3D NAND 后,于 2022 年顺利推出 192 层 3D NAND 芯片。</p><p>反观垄断中国存储市场的三星,自从 2013 年推出 24 层 3D NAND 闪存芯片后,直到 2019 年才推出 96 层 V-NAND,虽然研发进度慢有更换技术路线的原因,但是同期另一家老牌存储长海力士已经推出 128 层 4D NAND 产品,三星此时已经明显落后于同业企业,但仍领先长江存储。</p><p>现如今,长江存储不仅从技术层面实现赶超,还凭借中国特有的 " 量大管饱 " 生产模式,将产品售价一降再降,迫使三星在中国市场全面接受价格战,实现全系产品降价。</p><p>虽然目前有观点认为,三星存储产品降价,以及一季度出现 3.3 万亿韩元的营业亏损,主要是因为过去几年芯片行业产能过剩,不得已降价去库存并首次减产,这种观点不能说错,但确实很片面。</p><p>从市场角度出发,目前在某电商平台上,采用长江存储自研 3D NAND 闪存芯片的存储产品,2TB 规格产品单价最低到了 479 元,600 元以下的选择非常多,而三星虽然大幅降价,但客单价依旧比致钛高 100 元,比售价最低的近乎翻倍,如果三星不降价,继续采取之前 2TB 规格产品动辄超 2000 元的单价,等于直接宣告退出中国消费级存储市场的竞争。</p><p>中国存储市场这块大蛋糕,三星可不会轻易放弃。上文提及,到 2025 年,中国人工智能核心市场规模将达到 4000 亿元,按照存储芯片 27% 的占比计算,AI 芯片领域存储芯片市场规模或将达到 1080 亿元。考虑到当前存储产品售价大幅降价,保守估计未来市场规模也有望超过 500 亿。</p><p>而且在大数据时代,数据的产生和运算速度都在急速上升(参考 GPT-3 预训练数据量),所有云服务供应商不仅需要更强的算力,还需要容量更大、读取速度更快的存储设备,所以即使未来存储芯片还有降价的可能,更低的产品价格反而会催生行业内固态存储对机械存储设备的替代。</p><p>这种行业趋势其实从 2019 年就已经开始显露端倪。据民生证券数据,2019 年企业级 SSD 平均容量达到 2.3TB,2020 年将增长至 2.7TB,设备出货量年均复合增速达到 15.8%。三星即使降产断臂,也会极力平衡存储产品的供给关系,继续抢夺中国市场,只可惜三星再也没机会躺平挣钱了。</p><p>因为长江存储的芯片制程普遍处于 22nm,海外制裁不涉及该部分,且国产设备目前已经逐步覆盖该领域的芯片制造。再想通过制裁简单粗暴的限制中国芯片行业发展,只停留在理论层面,而一旦中国企业突破海外封锁,将立刻改变行业竞争格局,帮它们真正参与理解,什么才是 " 市场竞争 "。</p><p></p><div class="img_box" id="id_imagebox_3" onclick=""><div class="content_img_div perview_img_div"><div align="center"></div></div></div><div class="img_box" id="id_imagebox_4" onclick=""><div class="content_img_div perview_img_div"><div align="center"></div></div></div><div class="img_box" id="id_imagebox_5" onclick=""><div class="content_img_div perview_img_div"><div align="center"></div></div></div><p></p><div id="recommend_bottom"></div><div id="article_bottom"></div></div>
页:
[1]