算力参数:多厂商逐鹿AI,矩阵计算为核心算力参数。AI 算力参数种类繁多,其本质是精度与运算效率的取舍。为更好适应AI 大模型的训练与推理,FP32 TensorCore,BF16 等新兴数据类型应运而生。以FP32 Tensor Core 为例,其为英伟达张量计算的数据格式,使得模型训练性能大幅提升。英伟达H200 的FP32 算力为67TFlops,对应FP32 Tensor Core 算力为989TFlops,性能大幅提升。而国内各算力厂商产品性能迭代顺利,华为海思此前发布的昇腾910 在FP16 算力性能上接近A100,下一代910B 性能有望显著提升。寒武纪370 对标英伟达L2芯片。海光信息深算三号研发进展顺利;龙芯中科第二代图形处理器LG200 单节点性能达256GFlops-1TFlops,将基于2K3000 的GPGPU 技术及3C6000 的龙链技术,研制专用GPGPU 芯片。
互联参数:多卡互联为大模型桎梏,国内外差距巨大。相比小模型,大模型要求在模型切分后进行模型并行。模型并行使得多个GPU 能同时运行模型的一部分,并在共享结果后进入到下一层。大模型的发展使得类似英伟达NVLink、NVSwitch等互联技术的重要性快速提升,同时互联性能参数也成为各大模型实际效果好坏的重要凭依。大多数厂商利用PCIe 进行互联,而英伟达的NVLink 能够实现GPU间的直接互联,从而大幅提升通信效率,其NVLink 带宽可达到900 GB/s。在大规模高精度的3D FFT、3950 亿参数的大模型训练上,H100+NVLink 组合的提升显著。我们认为随着大模型的复杂化,NVLink 等多卡互联技术将愈加重要。在多卡互联上,国内外厂商亦有所差距。以寒武纪MLU370-X8 为例,寒武纪为多卡系统专门设计了MLU-Link 桥接卡,其可实现4 张加速卡为一组的8 颗思元370 芯片全互联,每张加速卡可获得200GB/s 的通讯吞吐性能,带宽为PCIe 4.0 的3.1倍。但相比英伟达NVLink 4.0 的900GB/s,该互联性能仅为英伟达的22%,仍有较大提升空间。
建议关注:
算力芯片:寒武纪(思元590 性能有望显著提升)、海光信息(深算三号研发进展顺利)、龙芯中科(将基于2K3000 的GPGPU 技术及3C6000 的龙链技术研制专用GPGPU 芯片)
AI 应用:海康威视、大华股份、乐鑫科技、晶晨股份、恒玄科技、中科蓝讯服务器:工业富联、沪电股份
服务器存储:澜起科技、聚辰股份
先进封装:通富微电、长电科技、甬矽电子、华天科技? 风险提示:下游需求复苏不及预期,技术研发风险,国内外政策和技术摩擦不确定性的风险。
知前沿,问智研。 是中国一流产业咨询机构,十数年持续深耕产业研究领域,提供深度产业 、商业计划书、可行性 及定制服务等一站式产业咨询服务。专业的角度、品质化的服务、敏锐的市场洞察力,专注于提供完善的产业解决方案,为您的投资决策赋能。
转自德邦证券股份有限公司 研究员:陈海进/徐巡/谢文嘉
2024-2030年中国算力行业市场全景调查及战略咨询
《2024-2030年中国算力行业市场全景调查及战略咨询 》共十一章,包含中国算力行业发展环境洞察,中国算力行业市场前景预测及发展趋势预判,中国算力行业投资战略规划策略及发展建议等内容。
版权提示: 倡导尊重与保护知识产权,对有明确来源的内容注明出处。如发现本站文章存在版权、稿酬或其它问题,烦请联系我们,我们将及时与您沟通处理。联系方式:gaojian@chyxx.com、010-60343812。