EN
【原创研究】当对算力芯片的高预期,照进现实
来源: 高级分析师 张家祺日期:2023-04-14浏览量:288
ChatGPT的快速发展让AI更多的进入到人们的视野中,从原先潜藏在工业自动化、智慧城市等领域的应用,降临到了人们的日常生活中,率先在工具链型的产品中让人们有了直观的感受——这是对未来生产力的变革。
从整个AI产业链看,主要系算力、算法、应用三大主要环节,其中算力系基础,而芯片系其重中之重,这也是现阶段资本市场给予相关芯片公司巨大预期的原因,从结果上看,年初至今(2023-4-4),寒武纪(688256.SH)、海光信息(688041.SH)、景嘉微(300474.SZ)分别上涨294.99%、114.05%、139.78%,这是资本市场用真金白银投票的结果。但是,当预期照进现实,如星辰大海般的市场,这些企业是否具有承接的能力?他们现在又发展到了何种程度?
我们先直接来看现实:
  • 景嘉微系国内军用GPU龙头,但其GPU主要满足军用特性图像显示功能要求,而非图形渲染高性能要求,其最新产品JM9仅相当于NVIDIA的GTX1050,相当于入门级GPU。


  • 海光的深算1号系GPGPU,目前相当于NVIDIA的P100(2016年前的产品,OpenAI的GPT-3用的是V100(2017年)进行的训练),但受到美国实体清单禁运的影响,目前需要通过第三方代理公司等途径才能流片、投产,因此会面临投片价格高、产能受限的问题。且深算1号基于AMD的1代GPGPU授权,未来迭代受限,或拉大与国外的差距。


  • 除此之外上市公司中都只有ASIC芯片,均只使用专用场景适用特定算法的AI芯片,无法实现大模型多模态通用性。比如寒武纪,其最新产品思元590目前在百度的文心一言中有小规模部署,但仅能完成大模型推理的部分场景,受制于有限的内存容量、较弱的卡间互联解决方案、对Tensorflow和PyTorch框架的不支持(需要额外开发),难以有效用于大模型训练。

  • 又比如华为昇腾系ASIC芯片,难以有效用于大模型训练(大模型的训练需要32位浮点的运算支持,但昇腾并不支持),且昇腾的通用性较差,针对大模型仅能用于华为生态大模型的相关工作,其他模型若要使用昇腾,均需经过华为的深度优化才可使用。

即使骨感的现实,仍然阻止不了资本市场给予如此疯狂的预期,这是为何呢?资本市场预期与现实的差距形成的原因又是什么呢?


AI芯片的类型
01


AI芯片从应用角度分为AI训练和AI推理芯片,而从技术路径的角度,其实主要系GPU、ASIC、FPGA,从通用性的角度看,GPU>FPGA>ASIC;从功耗的角度,ASIC<FPGA<GPU,即各类芯片在通用性、功耗的角度各有千秋,并未形成一致性的技术路径碾压。但从市场份额的角度,现阶段GPU占比9成,ASIC及FPGA占比仅1成。
从小模型的角度看(诸如人脸识别、语音识别、自动应答等CV算法),现阶段GPU拥有更好的使用效果,但主要系针对NVIDIA,NVIDIA的CUDA平台沉淀的生态使得小模型的应用更为便捷,基本有成熟的算子可以直接调用,因此,即使ASIC基于对模型的理解,进行特殊的定制化处理,将特殊算子、结构固化至硬件,也未必相比NVIDIA通用型的GPU有更优的表现。
也因为ASIC的特性,一般在模型成熟、改动有限的情况下,ASIC会具有更高的性价比(即更适合固化的模型)。而大模型在参数、模态等各方面均在不断演进,因此,现阶段的大模型基本在使用GPU,没有大规模部署ASIC。虽然,从理论的角度看,基于transformer架构的大模型是依靠框架实现的架构,不必然使用CUDA的特殊算子(即大模型对CUDA的依赖程度低于小模型),使得ASIC有了弯道超车的机会,但目前从演进发展、算力实现的角度看,GPU仍是较好的选择。而国内的GPU布局与国外存在着显著的鸿沟。


AI芯片的门槛
02


从AI芯片的门槛看,实际是非常高的,但或许与大部分人预期的门槛不相一致,对于AI芯片而言,其门槛始于硬件,延于软件,而真正的壁垒是生态。
AI不仅需要算力硬件的支持也需要环境(CUDA和ROCM)与生态(Pythorch为主的框架)还有开发者社区(Github等)的共同建设。AI模型的生产也有一条从论文->实践->商业化(或开源)->开发者社区二次开发与应用落地的一条较为明显的生产线。
相应的,算力芯片的阶层也会分为四个:
第一阶层即简单的硬件设计,核心IP仍然是授权。国内市场上出现过许多NVIDIA、AMD等出来的团队布局AI芯片,且现在仍有很多企业在该领域布局,似乎给人一种大家都在做、甚至都能做的错觉。这是因为对于国内的大多AI芯片而言,很多核心部件、核心功能(如总线接口PCIE、内存以及内存控制器的HBM、DDR、GDDR)均有现成的IP,而布局的企业亦没有真正实现IP层面的国产化,核心IP主要在国外。
第二阶层IC设计实现自主国产化,至少核心IP设计都是自主研发而非授权。
第三阶层即自研软件系统,实现软硬件一体。在该阶层的全球都已经寥寥无几。因为在软件端,对于整合内部的逻辑加速单元,更好的发挥AI计算的优势(对于小模型,需要解决兼容扩大,发挥设计性能;对于大模型,需要完善对于框架的支持)。这对企业研发团队、运营管理能力都提出了更综合性的高难度挑战。
更罔论第四阶层的企业,即实现规模化多元发展,最终呈现多市场多模态领域的生态。
从算力产业投资的结果来说, 英伟达在训练GPU的地位因为通用的计算能力, 庞大的开发者数量和成熟的函数生态加之完善的通用框架支持, 现如今已经成为算力行业话语权定义者。换句话说英伟达在大模型算力尤其训练方面的地位不是光靠其优秀的算力形成的, 哪怕是全球第二的GPU厂商AMD,所开发出的ROCM也因为后发劣势而需要依靠开源和在代码层完全兼容CUDA才有生存空间. 但就算如此各大AI论文用的代码依然以CUDA为主。
但实际上,大量的团队分化在第一阶段和第二阶段,问鼎第三阶段。

AI芯片的稳定性
03


先看一个控制变量的案例:国内同样的一个模型,用2400片NVIDIA的A100训练8天可完成,但用6万片海光的深算1号训练30天却无法完成。
这其中除了算力等的差距,核心系稳定性。对于模型的训练而言,高稳定性非常重要。如果在大模型训练过程中出现一两个节点的宕机,以及一两个节点计算失效,那需要大模型推倒重来(一般训练过程中都需要checkpoint保存结果,如果稳定性不好,第一次checkpoint都做不到,就无法有效实行),即不稳定的产品将显著延长大模型的训练时间。
而这个稳定性取决于软件及工程能力,需要在实际运行过程中解决一个个问题,并逐渐消除软硬件结合过程中的冗余机制。但这需要大量的时间成本代价,一般商业客户并不会给予机会慢慢磨合,类似过往国产半导体设备装而不用,这里或许需要政府的强制介入创造机会。
因此,国产AI芯片在底层基础、软件设计、应用磨合、生态搭建等领域均十分欠缺。对于大厂客户而言,一般产品能实现NVIDIA约60%-70%的性价比时,可以考虑使用替换,但现在多数产品仅能实现30%甚至更低,叠加生态差距,现阶段寄希望于国产AI芯片迎头赶上,或者百花齐放,是十分困难的。
回归到A股上市公司的业绩以及未来的增长预期,相关公司在国产替代及不同场景的芯片领域或能享受业绩增长,但在大模型驱动下算力的激增对其业绩兑现,影响或非常有限。
1)产品本身性能的承接能力不够;
2)受美方影响产能受限,放量逻辑不通畅;
3)产能受限导致放量不足导致价格上涨的逻辑链不通畅,算力不具备性价比。
但即使如此,资本市场仍然给与如此乐观的预期,只能说明整个AI芯片的市场空间及其宽广,尤其在目前中美博弈带来的半导体多方禁令背景下,我国信创产业国产化需求十分迫切。政府对相关领域的鼓励使得国内芯片有得到使用优化的场景,资本市场给予一定的泡沫使相关企业具备融资优势以进一步发展技术,这是必要的,但当泡沫积累的不太健康的时候,并不是一个多赢的结局。而真正适宜的选择仍要需要有底层技术实力和产业支撑的企业,如果不在资本市场,那就可以去股权投资市场寻找。