晴天文章网 手机版

您的位置: 首页 > 实时讯息 >

DeepSeek揭秘如何突破软硬件瓶颈|科创要闻

0次浏览     发布时间:2025-05-19 17:00:00    

人工智能军备竞赛在国内外持续迭代演进。OpenAI、谷歌、微软、阿里巴巴等不断推出新应用,MCP协议、AI编程、具身智能机器人、芯片自研等场景多样拓展。自从年初引起全球震动并激发诸多领域AI变革以来,DeepSeek的一举一动都备受关注,但其最新R2模型千呼万唤仍未推出。

5月14日,DeepSeek团队发表最新论文,解释其DeepSeek-V3模型在硬件架构和模型设计方面的关键创新,公开大规模训练和推理的降本秘诀,令人瞩目的效率突破是如何做到的,又给业内很大启发。

这篇发表在arXiv平台的论文Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for AI Architectures,DeepSeek创始人兼CEO梁文锋出现在合著名单中。

相较此前的DeepSeek-V3技术报告,本篇论文的重点不在算法,而是从硬件架构和模型设计双重视角出发,探讨了硬件和模型两者如何相互配合,以实现低成本的大规模训练和推理,主要涵盖五方面内容,包括DeepSeek模型的设计原则、低精度驱动设计、以互联为驱动的设计、大规模网络驱动设计、面向未来的硬件架构设计。

论文重点介绍了多头潜在注意力(MLA)以提高内存效率、混合专家(MoE)架构以优化计算与通信权衡、FP8混合精度训练以充分发挥硬件潜力,以及多平面网络拓扑以最小化集群级网络开销等关键创新,还为未来AI硬件与模型协同设计提出了建议。

大模型的迅猛扩张暴露了硬件的架构瓶颈:内存容量不足、计算效率低下、互连带宽受限等。DeepSeek研究团队通过基础设施与算法团队的深度合作,开发了一个适用于MoE模型的FP8混合精度训练框架。在混合精度训练中,模型的权重和激活值可以使用FP8进行计算,而关键的梯度计算和优化步骤则使用更高的精度(如FP32)来保证训练的稳定性,从而在不损失模型性能的前提下,充分发挥硬件的计算能力,加速训练过程,降低训练成本和内存占用。

论文披露了对通信架构的重构。DeepSeek提出多平面双层胖树网络(MPFT),将传统三层网络拓扑压缩为两层,通过8个独立网络平面实现流量隔离和成本下降。这是DeepSeek首次披露超大规模集群的网络优化方案。

他们还提出了未来硬件架构设计的前瞻性方向,包括系统鲁棒性挑战、CPU与GPU通信瓶颈、智能互联网络发展、基于内存语义的通信与顺序控制问题、网络内计算与压缩优化、内存带宽瓶颈等。针对这些问题,团队提出了针对性的建议和技术方向,譬如采用直接的CPU-GPU互连、共封装光学、无损网络、自适应路由技术、堆叠式DRAM加速器、芯片级系统集成等。

总体而言,随着AI模型的规模不断增大,对底层硬件和网络的要求也越来越高。Deepseek努力在内存管理、节点互连和计算效率等关键领域持续突破,以应对未来挑战。他们的解决方案不局限于Deepseek V3模型,更着眼于构建一个能支持更强大、更高效应用的AI生态系统,也许为下一代AI专用硬件绘制了发展路线图。

公司动态

01 全球首个太空计算星座成功发射

5月14日,国星宇航在酒泉卫星发射中心使用长征二号丁运载火箭,将“太空计算星座021任务”的12颗卫星发射升空并送入预定轨道,全球首个太空计算星座成功发射。

此次首发星座由国星宇航、之江实验室、内江高新区共建,首发星座12颗计算卫星通过星间激光高速互联、星座稳定组网和算力分布式调度,构建开放共享的太空计算系统,打造天基智能计算基础设施,实现了“算力上天、在轨组网、模型上天”。首发星座具备5POPS的太空计算能力,星间激光通信速率最大可达100Gbps。同时,卫星搭载了80亿参数天基模型,将执行天文科学观测等在轨任务。

点评:计算卫星是区别于通信、导航、遥感的第四类卫星,将接收到的数据传回地球,再由地面数据中心处理分析(“天数地算”),这种模式的数据传输效率低、信息损耗大。本次发射的计算星座可实现“天感天算”,在提升效率的同时解决地面数据中心的土地限制和高能耗,是算力部署的全新探索方向,以“人工智能+”推动太空科学研究范式的变革。(曹妍)

02 DeepMind发布进化式编码智能体AlphaEvolve

2025年5月14日,谷歌旗下的DeepMind发布“进化式编码智能体”AlphaEvolve,它能通过进化算法不断筛选、评估和改进候选方案,最终产出超越人类专家的创新算法,反过来再去训练新一代的Gemini。

过去一年,谷歌在其计算生态系统中部署了AlphaEvolve发现的算法,包括数据中心、硬件和软件。AlphaEvolve提高了谷歌数据中心、芯片设计和人工智能培训流程的效率,包括培训AlphaEvolve本身所依赖的大型语言模型。它还帮助设计了更快的矩阵乘法算法,并为开放式数学问题找到了新的解决方案。

DeepMind正计划为选定的学术用户提供早期访问计划,并开放填表申请。

点评:用AI训练AI,预言已经成为现实。(李一跞)

03 OpenAI 推出云端软件工程智能体Codex

5月16日,OpenAI推出云端软件工程智能体Codex,它能并行处理多项任务,如编程、回答有关代码库的问题、修复错误,以及提出拉取请求以供审核;每项任务都在用户的个人云端沙盒环境中运行,并预先加载个人版本库。

Codex 由针对软件工程优化的OpenAI o3版本codex-1提供支持。它通过在各种环境下对真实世界中的编码任务进行强化学习训练,生成的代码能够反映个人风格和偏好,精确遵从指令,并能反复运行测试,直到获得想要的结果。

目前,Codex已接入ChatGPT,对Pro、Team和Enterprise的用户开放,后续还将支持Plus和Edu的用户。

点评:2025年2月,Anthropic发布代理编码工具Claude Code,2025年4月,谷歌更新AI编码助手Gemini Code Assist,而今又有了OpenAI的Codex和DeepMind的AlphaEvolve,难怪Anthropic的首席执行官Dario Amodei会认为,在2025年年底之前,AI可能会编写90%的代码。AI“吃掉”程序员工作的同时,是否也在开启文明变革的序章?(李一跞)

科学前沿

04 可精准调控工业发酵过程的AI系统

5月12日,上海交通大学李金金教授团队发布AI工业自控系统ManuDrive。该系统凭借时间维度的AI生成式算法,以及物理可解释的人工智能等核心算法,通过在复杂的生物发酵过程中动态调控参数,实时生成未来每一个时刻的最优发酵方案,进而实现人工智能对发酵的工业生产过程进行接管,成功攻克微生物生长动态调控这一国际难题。

ManuDrive系统已在抗生素发酵等工业场景实现落地应用,还可轻量化部署,仅需传统AI模型5%的数据量和十几张普通电脑显卡,就能支持中小企业的低成本部署和改造。

点评:传统AI模型多依赖静态数据训练,更多的是处理计算机领域的图像识别、文本任务等,ManuDrive则聚焦随时间变化的生产过程、能源调度、预测维护、轨迹规划等,可实现连续控制和动态优化,“数据反馈—模型迭代—产量提升”的良性循环,填补了全球工业AI在动态过程预测和调控方面的技术空白。(郭吉桐)

05 全球最小自供电双足机器人

5月13日,美国卡内基梅隆大学工程学院团队宣布,成功研制出全球最小、速度最快的自供电微型双足机器人“Zippy”。Zippy身高仅有3.8厘米,却能以每秒10步的速度行走,相当于人类以30公里/小时的速度奔跑,创下自主双足机器人的速度纪录。

作为美国国家科学基金会资助的多年期项目的最新成果,Zippy旨在理解小尺度的运动,以便制造出功能更强大的微型双足机器人。未来,团队计划为Zippy添加摄像头等传感器,使其能够自主定位和导航。

点评:Zippy可以进入人类甚至其他机器人无法涉足的狭窄空间,在紧急搜救、工业检查、地质勘探等多个领域具备应用前景。(曹妍)

06 全球首例个性化碱基编辑疗法治疗罕见遗传病

5月15日,美国费城儿童医院、宾夕法尼亚大学医学院等国际团队在《新英格兰医学杂志》(NEJM)发表文章Patient-Specific In Vivo Gene Editing to Treat a Rare Genetic Disease,报告了全球首例定制基因编辑疗法,成功治疗一名患有罕见致命遗传疾病的儿童。

该儿童患者在出生几天后,被诊断出患有严重的氨甲酰磷酸合成酶-1(CPS1)缺乏症,这是一种罕见且严重的遗传疾病,患者肝脏中缺乏将氨转化为尿素所需的酶,氨就会累积到有毒的水平,从而导致器官损伤,尤其是大脑和肝脏。

研究团队通过对患者基因组进行快速靶向分析,发现其基因突变情况非常适合使用碱基编辑技术进行修复,于是迅速联合学术界和工业界,启动定制碱基编辑疗法的开发,从细胞和小鼠模型构建开始,进行体外和体内动物实验,并在猴子中进行了安全性和有效性验证,最终开发了定制的脂质纳米颗粒(LNP)递送的碱基编辑疗法,整个开发、验证、生产以及监管审批过程,仅六个月。

接受治疗后,患者已能摄入更多蛋白质,所需药物剂量也大幅减少。

点评:碱基编辑疗法被称为“下一代基因编辑技术”,无需切断DNA双链,就能精准、永久性地编辑DNA中的单个碱基,校正致病性突变,在确保DNA完整性的同时,能一次性彻底实现疾病治愈,具有更高的安全性,编辑效率也更高。此前,基因碱基编辑已运用到T细胞白血病、高胆固醇血症等治疗探索中,此次用来治疗那些目前尚无医疗手段可用的罕见病患者,是人类历史上一项具有里程碑意义的医学突破。(曹妍)

政策要闻

07 七部门:加快构建科技金融体制 支撑高水平科技自立自强

5月14日,科技部、中国人民银行、金融监管总局、中国证监会、国家发改委、财政部、国务院国资委印发《加快构建科技金融体制 有力支撑高水平科技自立自强的若干政策举措》,设立“国家创业投资引导基金”。

其中提到,发挥“国家创业投资引导基金”支持科技创新的作用,鼓励发展私募股权二级市场基金(S基金)、支持创业投资和产业投资发债融资等;发挥资本市场支持科技创新的关键枢纽作用,优先支持取得关键核心技术突破的科技型企业上市融资、研究制定提升区域性股权市场对科技型中小企业服务能力的政策文件、建立债券市场的“科技板”等。

点评:趁着科创债券的市场红利余波,此次的科技金融体制新政,进一步打通了科技型企业从早期孵化到资本市场的多元融资通道。随着科技型企业在融资路径上获得更多制度保障,中国的科技金融领域正在从“输血”走向“造血”。(饶舒玮)

中国及世界

08 华为昇腾芯片遭美国禁用

5月13日,美国商务部宣布废除原定于2025年5月15日生效的《人工智能扩散出口管制框架》,未来将发布替代规则;采取三项额外政策措施加强对全球半导体的出口管制。

三项政策分别是《对中华人民共和国先进计算集成电路适用通用禁令10的指导意见》(GP10)《美国商务部工业与安全局关于可能适用于训练人工智能模型的先进计算集成电路及其他商品的管控政策声明》《防止先进计算集成电路转用的行业指南》。

GP10提出,使用“中国3A090集成电路”存在违反美国出口管制的风险,企业可能会受到工业与安全局的执法行动。GP10规定限制的“中国3A090集成电路”直指华为昇腾910B、华为昇腾910C、华为昇腾910D三款芯片。

点评:华为昇腾系列是英伟达AI芯片的主要国产替代产品,客户包括字节跳动、阿里、腾讯、百度等科技公司。GP10将直接冲击华为及其合作伙伴的全球市场,并为半导体供应链带来不确定性‌。三项政策反映出,美国政府仍在继续加强对中国AI芯片的出口限制。(曹妍)

本期要闻汇总人:郭吉桐

科创力研究中心

责编 丁伟

相关文章