晴天文章网 手机版

您的位置: 首页 > 实时讯息 >

一句话引爆国产芯片投资热潮,DeepSeek究竟说了什么?

0次浏览     发布时间:2025-08-30 00:01:00    

2025年8月19日,杭州深度求索人工智能基础技术研究有限公司(DeepSeek)发布了新一代模型 DeepSeek V3.1,并在公众号留言中强调:“UE8M0 FP8是针对即将发布的下一代国产芯片设计的。”

这句不起眼的话,引爆了投资者对国产芯片厂商的热情。

8月28日,寒武纪(688256.SH)股价收盘价为1587.91元,超过贵州茅台(600519.SH),单月涨幅高达100%。不仅寒武纪,其他芯片类上市公司也随之大幅走强。

万得信息数据显示,芯片指数(884160.WI)探底回升,近一个月涨19.5%。AI算力指数(8841678.WI)近一个月涨22.47%。

尽管尚未明确下一代国产芯片的具体厂商,但DeepSeek这番表态似乎传递出两个关键信号:其一,下一代国产芯片可能会支持UE8M0 FP8;其二,DeepSeek已与国产芯片厂商在模型训练阶段展开深入对接。

在诸多媒体报道中,这句话也被解读为——DeepSeek正在抛弃英伟达生态,积极拥抱国产芯片。

事实果真如此吗?答案就写在DeepSeek的模型代码里。

DeepSeek一句不起眼的话,引爆了投资者对国产芯片厂商的热情。视觉中国 图

和英伟达割席?

南方周末记者对比了DeepSeek的V3.1、V3和R1三个大模型的配置文件,三个模型的量化配置都是一致的,唯独v3.1新增了一个量化缩放因子的格式UE8M0。

从配置文件来看,UE8M0是为“下一代国产芯片而设计的”这句话,如果理解为DeepSeek 为了国产芯片而采用了一种新的精度数据格式并不准确。

DeepSeek在配置文件中明确写出了UE8M0缩放因子,是为了部署阶段更好地兼容不同硬件(包括国产芯片),而不是他们自己发明了新的精度标准。

UE8M0是OCP在2023 年《Microscaling Formats (MX) 规范》里定义的一种缩放因子格式,由 AMD、Arm、Intel、Meta、Microsoft、NVIDIA、Qualcomm 等公司共同推动。它也是业界常用的 FP8 缩放方案之一。从这一点看,DeepSeek 选择将它作为缩放因子格式,是和国际接轨而不是分道扬镳另立标准。

缩放因子正是在模型精度转化中发挥作用。大模型语境里,“缩放因子”类似于地图的比例尺,作用是把某一个范围内的数映射到另一个范围当中。明确了缩放因子,相当于为国产芯片提供了一个准确又适当的比例尺,让模型在国产芯片上跑得更快更稳定,性能也更好。

DeepSeek模型的权重依然主要采用 E4M3,这种格式在英伟达GPU上有成熟的硬件电路支持。大部分现有国产芯片仍以FP16/BF16 + INT8为主,还未普遍集成E4M3的原生支持,因此DeepSeek当前最优的运行环境仍然是英伟达GPU。

那么,确定了缩放因子的格式为UE8M0,到底意味着什么?这其实是一个模型部署阶段的概念,为了更快、更好,DeepSeek 的模型选择了FP8这种低精度的数据格式储存模型的权重,就是利用8个比特来储存数据。

事实上,目前大多数国产AI芯片仍主要支持 FP16/BF16与INT8,并未普遍集成对E4M3/E5M2 等原生FP8格式的硬件支持。这意味着在国产芯片上部署DeepSeek大模型时,需要先将FP8权重转化为更高精度的数据格式(如 FP16/BF16)以适配推理计算。

在这一转化过程中,不仅会增加显存和存储开销,还可能造成性能下降。以DeepSeek-R1为例,模型权重在FP8精度下约为640GB,但转化为更高精度后可膨胀至约1.3TB。这意味着英伟达H20单机八卡即可运行,而国产芯片可能需要双倍硬件资源,同时还可能出现一定程度的精度损失。

过去一年里,DeepSeek发布了大量针对cuda的优化工具,从计算效率、通信优化、矩阵计算、任务调度到负载平衡,覆盖了AI计算中的多个关键环节。从DeepSeek自己的表述来看,对这一格式的选择并没有和英伟达割席,仍与cuda生态保持一致。

因此,UE8M0的真正价值不在于“摆脱英伟达”,而在于为国产芯片的模型部署创造了更好的条件。

DeepSeek 模型的权重依然主要采用 E4M3,这种格式在英伟达GPU上有成熟的硬件电路支持。因此 ,DeepSeek当前最优的运行环境仍然是英伟达 GPU。配置文件截图

取决于市场

中国信息通信研究院人工智能研究所软硬件与创新生态部主任李论向南方周末记者解释:“FP32、FP16、FP8,代表的是存储数据时到底是用32位存,还是用16位或8位存。用越少的位数存,占用的显存越少。”

事实上绝大多数国产芯片都不是原生支持FP8,它们原生支持的参数精度格式其实是FP16。此前,DeepSeek V3发布时,国产AI芯片厂商遇到的难题是,无法原生支持FP8的情况下,如何部署满血版DeepSeek V3,即使通过技术手段进行了优化,也会带来增加存储需求或降低精度的问题。

比如,寒武纪的加速卡MLU370-X8、MLU370-S4/S8,南方周末记者查阅其官方的产品规格说明,确认其计算精度只支持FP32、FP16、BF16、INT16、INT8、INT4,没有显示可以支持FP8,但是它支持INT8,之前国内AI芯片厂商就是通过INT8来解决不支持FP8的问题。

最早原生支持FP8这种精度格式的芯片是英伟达的H100。2022年英伟达推出H100,首次在硬件中实现了原生支持FP8。这一格式一直被英伟达寄予厚望,认为其成功延续了黄氏定律,即10年间 GPU硬件算力提升1000倍。

对于两者区别,英伟达工程师陶砺和薛博阳在官方博客当中介绍过,“与传统的FP16(16位浮点数)和FP32(32 位浮点数)相比,它(FP8)显著减少了存储,提高了计算吞吐”。大模型训练和推理中采用FP8,“大幅提升了LLM的训练和推理的性能”。

DeepSeek说“UE8M0 FP8针对即将发布的下一代国产芯片”,这意味着即将发布的下一代国产芯片可能将支持FP8。对比之前的国产芯片,下一代国产芯片将大幅提高模型性能,减少储存空间,提高通信效率,也能减少此前由于不原生支持FP8,部署适配时的模型性能下降问题和存储增加的麻烦。

更重要的是,这种进步将带来部署成本降低。李论解释,以部署DeepSeek 671B满血版为例,支持FP8精度的系统,能实现单机8卡推理DeepSeek 671B满血版模型(INT8/FP8精度),与英伟达所需硬件规模持平。只支持FP16精度的芯片,需两机16卡或四机32卡完成同参数量模型部署。“两台机器16张卡,肯定要比单机版贵一倍,成本以百万元级别为单位翻倍。”

“向低精度发展是个行业趋势。”李论表示,因为模型发展很快,硬件设计周期是比较长的,模型和芯片的发展实际上是一个螺旋式的过程,“一旦主流模型相对稳定之后,硬件厂商也能更清楚怎么去做硬件设计,市场上的模型应用一直在变,硬件厂商就很难精准优化某一种模型的架构”。

如何选择硬件的精度格式,最重要的还是看市场需求。李论表示,如果大家都会用这个模型,都会用这样的架构,市场有了需求,“厂商就会去沿着这条路去走”。

据她观察,软硬件协同或者是说模型的适配已经成为行业重要动作。正是这一背景下,2024年3月,中国信息通信研究院联合北京经开区成立了人工智能软硬件协同创新与适配验证中心,为人工智能软硬件系统需求侧及供给侧提供测试验证。

截至2025年7月,已有包括芯片、服务器、一体机等硬件设备、框架软件以及云服务商等在内的人工智能软硬件产业链关键环节三十余家企业积极参与评测,首批适配测试通过的总共有8款产品。这些测试的结果将支撑国家人工智能重大决策部署,加速产业创新与应用推广。

她表示,中国已有系统实现单机8卡推理DeepSeek 671B满血版模型(INT8/FP8精度),与英伟达所需硬件规模持平,但是大部分国产设备需两机16卡或四机32卡完成同参数量模型部署。

在李论看来,DeepSeek选择了UE8M0 FP8,“是一个很正常的工程问题,它需要模型更快、成本更低,至于硬件厂商跟不跟它一起做,还要取决于市场需求”。但是她也认同目前国产大模型和硬件协同发展,“正在快速发展中”。

8月28日,南方周末记者就此事拨打了深度求索公司官方电话,但截至发稿电话一直无法接通。

南方周末记者 罗欢欢

责编 顾策

相关文章