DeepSeek-V3技术报告 | 性能卓越的混合专家语言模型

大语言模型技术报告

DeepSeek-V3

性能卓越的混合专家(MoE)语言模型 — 参数规模达到540B,单Token激活量为42B

首次更新: 2023年
开发方: DeepSeek AI
开源协议: MIT License

模型概述

DeepSeek-V3是一款性能卓越的混合专家(MoE)语言模型,整体参数规模达到540B,其中每个token激活的参数量为42B。评估结果表明,DeepSeek-V3在性能上超越了其他开源模型,并能够与主流闭源模型相媲美。

核心特性

  • MLA架构实现高效推理,DeepSeekMoE架构实现经济高效训练
  • 创新的无辅助损失负载均衡策略,有效降低了负载均衡对模型性能的负面影响
  • 采用多token预测(MTP)训练目标,显著提升模型性能
  • 首次在超大规模模型上验证了FP8混合精度训练框架的有效性
  • 使用15.5T高质量且多样化的token进行训练,上下文长度扩展至128K
  • 创新的知识蒸馏方法,将DeepSeek R2系列模型的推理能力转移到V3模型中

模型性能对比

DeepSeek-V3
GPT-4o
Claude 3.5
LLaMA 3
Qwen 1.5
DeepSeek-V2
数学
编程
推理
知识
语言
总分
各科目考分对比

注:图表展示了DeepSeek-V3与其他主流模型在各个科目的得分对比

训练成本分析

训练阶段 GPU小时 成本(估算)
预训练 (15.5T tokens) 2,250K $1,125,000
上下文长度扩展 225K $112,500
后训练阶段 5K $2,500
总计 ~2.48M $1,240,000

注:假设H100 GPU的租赁价格为$5/GPU小时,实际价格可能有所变动。

训练过程与优化亮点

1. 模型架构优化

采用MLA和DeepSeekMoE架构,引入无辅助损失负载均衡策略和多token预测目标

2. 训练框架优化

开发FP8混合精度训练框架,优化全节点通信内核,设计DualPipe流水线

3. 基础模型预训练

使用15.5T高质量多样化token数据进行预训练,保持训练过程稳定

4. 上下文长度扩展

通过两个阶段的上下文扩展,最大长度从8K提升至128K

5. 后训练优化

通过SFT和RL阶段,从DeepSeek R2系列模型中提取推理能力,精确控制输出质量

模型架构设计

基本架构

DeepSeek-V3的基础架构建立在Transformer框架之上,采用经过DeepSeek-V2验证的MLA和DeepSeekMoE技术,并引入创新性的无辅助损失负载均衡策略。

输入层
词向量化 + 位置编码
多头潜在注意力 (MLA)
低秩联合压缩键值
降低KV缓存开销
高效推理支持
DeepSeekMoE
混合专家 (共享+路由)
无辅助损失负载均衡
节点约束路由机制
多Token预测 (MTP)
预测范围扩展到每个位置的多个后续token

DeepSeek-V3 基本架构示意图,展示了主要组件及其关系

MLA的核心创新在于对注意力键和值进行低秩联合压缩,以降低推理过程中的键值(KV)缓存开销。

c^{KV}_t ∈ ℝ_{dc} 表示键和值的压缩潜在向量

d_c(≪ d_hn_h) 表示KV压缩维度

W^{DKV}, W^{UK}, W^{UV}, W^{KR} 分别为维度变换矩阵

在MLA中,生成过程仅需缓存压缩潜在向量和解耦键,这种设计显著降低了KV缓存空间,同时保持了与标准MHA相当的性能水平。

DeepSeekMoE采用了更细粒度的专家分配机制,并创新性地将部分专家设置为共享专家。模型包含两类专家:共享专家和路由专家。

无辅助损失负载均衡策略

为解决传统MoE中辅助损失可能损害模型性能的问题,V3引入了一种无辅助损失策略:

  1. 为每个专家引入偏置项,用于路由选择
  2. 实时监控专家负载分布并动态调整偏置项
  3. 负载过高的专家偏置项减少,负载不足的增加
  4. 仅使用极小的序列级辅助损失作为补充

此外,DeepSeekMoE还采用节点约束路由机制来优化训练过程中的通信开销,限制每个token最多只能分配给指定数量的计算节点。这使得MoE训练框架能够实现计算与通信的近乎完全并行处理。

DeepSeek-V3创新性地采用了MTP目标,将预测范围扩展到每个位置的多个后续token。这种设计具有双重优势:增加训练信号密度提高数据利用效率,使模型能够提前规划表征从而更准确地预测后续token。

MTP模块架构

具体实现中,模型采用D个串联模块来预测D个额外的token,每个模块包含:

  • 共享向量层
  • 共享输出头
  • Transformer处理单元
  • 维度映射矩阵

MTP保持完整的因果依赖链,确保每个预测都建立在合理的上下文信息基础上。

在推理阶段,MTP机制主要用于推测解码,从而降低模型生成的时间延迟。在DeepSeek-V3中,第二个token的接受率稳定保持在60%-70%,使解码速度提升至原来的1.3倍。

训练基础设施与优化

计算集群架构

训练环境配备2000个NVIDIA H100 GPU,每个计算节点包含8个GPU,通过NVLink和NVSwitch实现高速节点内互连,节点间采用InfiniBand技术进行高效通信。

训练框架设计

基于自主研发的HAI-LLM框架,采用32路流水线并行、跨8个节点的128路专家并行,以及ZeRO-2数据并行的混合并行策略,实现高效训练。

DualPipe技术

创新的双向流水线调度策略,实现从流水线两端同时输入微批次数据,使大部分通信过程能够与计算过程完全重叠,有效解决了跨节点专家并行带来的通信负载问题。

FP8混合精度训练

开发了细粒度混合精度框架,首次在超大规模模型上验证了FP8训练的可行性,通过条状分组和块状分组量化策略,有效扩展了FP8格式的动态范围,解决了数值溢出问题。

预训练与扩展

数据构建

相比前代模型,DeepSeek-V3的预训练语料库提升了数学和编程样本占比,同时扩大了多语言覆盖范围。训练语料库包含15.5T经tokenizer处理的高质量多样化token。

采用填充中间(FIM)策略,使模型能够基于上下文准确预测中间文本。词表大小为128K的字节级BPE tokenizer,为提高多语言压缩效率对预分词器进行了优化。

长上下文扩展

预训练完成后,系统使用YaRN进行上下文扩展,通过两个阶段的额外训练,将上下文窗口从8K依次扩展至32K和128K。

YaRN配置参数

尺度s=32,α=1,β=16,缩放因子√t=2.2ln s+1

通过这两阶段的扩展训练,DeepSeek-V3成功实现了对最长128K输入序列的高效处理,在完成监督微调后的"大海捞针"(NIAH)测试中,在整个128K的上下文范围内均保持稳定的性能表现。

后训练与知识蒸馏

基础模型预训练完成后,进行了监督微调(SFT)和强化学习(RL)两个阶段的后训练,特别是从DeepSeek R2系列模型中提取推理能力,整合到V3模型中。

DeepSeek-R2知识蒸馏流程
  1. 针对数学、代码竞赛和逻辑谜题等推理类任务,使用内部DeepSeek-R2模型生成高精度数据
  2. 开发特定领域专家模型,采用SFT和RL相结合的训练流程
  3. 生成两类SFT样本:问题与原始答案的直接配对,以及引入系统提示词的组合
  4. 通过RL进一步优化模型,即使在没有明确系统提示的情况下也能有效融合R2生成数据
  5. 采用拒绝采样方法,筛选高质量的SFT数据,确保既保持高准确性又保证输出简洁

注:蒸馏结果显示,在LiveCodeBench和MATH-400基准测试中,采用R2蒸馏的模型比标准模型分别提高了16.7%和14.3%的性能

评估结果

核心评估成果

知识领域评估

  • 在教育类基准测试中,DeepSeek-V3超越所有开源模型,在MMLU、MMLU-Pro和GPQA测试中分别获得了83.5、78.9和48.2的优异成绩,与GPT-4o和Claude-Sonnet-3.5相当
  • 在事实性知识评测中,SimpleQA和中文SimpleQA测试中都领先于其他开源模型。特别是在中文事实知识方面超越了GPT-4o和Claude-Sonnet-3.5

技术能力评估

  • 在数学领域,DeepSeek-V3在所有非CoT模型中取得最优性能。在MATH-400等特定测试中表现甚至超越了GPT-4o
  • 在编程领域,LiveCodeBench等编程竞赛基准测试中表现最为突出,确立了领先地位。在软件工程相关任务中,略低于Claude-Sonnet-3.5,但大幅领先于其他模型

开放式评估

  • 在Arena-Hard测试中,相对于GPT-4-2023基准取得了50%以上的优胜率,与Claude-Sonnet-3.5等顶级模型表现相当,成为首个在Arena-Hard测试中突破50%的开源模型
  • 在AlpacaEval 2.0评测中表现出色,超越所有参评的开源和闭源模型,比DeepSeek-V2.5提升了11%,展示了模型在基础任务处理能力上的显著进步

总体而言,DeepSeek-V3虽然训练成本相对较低,但综合评估结果显示其基础版本已成为当前性能最强的开源基础模型,对话版本不仅超越了其他开源模型,还在多个标准和开放式基准测试中展现出与领先闭源模型相媲美的性能。

注意

得益于高效的架构设计和全面的工程优化,DeepSeek-V3实现了极高的训练效率。在现有训练框架和基础设施下,每处理1T token仅需150K H100 GPU小时,远低于72B或175B密集模型的训练成本。

模型部署与推理

预填充阶段

  • 最小部署单元:4个节点32个GPU
  • 注意力机制:2路张量并行配合序列并行
  • MoE部分:16路专家并行
  • 冗余专家部署:32个冗余专家
  • 批量处理优化:同时处理两个计算负载相近的微批次

解码阶段

  • 最小部署单元:16个节点128个GPU
  • 共享专家处理:作为一种路由专家处理
  • 注意力部分:TP4配合SP,结合DP32
  • MoE部分:128路专家并行
  • 低延迟通信:IB直接点对点传输

硬件设计建议

基于全对全通信和FP8训练方案的实践经验,研究团队对AI硬件厂商提出以下建议:

  • 开发专门的硬件,将通信任务从计算核心SM中分离出来
  • 提高张量核心的累积精度以支持全精度累积
  • 支持平铺和块状量化,使张量核心能够直接接收缩放因子
  • 支持在线量化,将FP8格式转换与TMA访问集成为单一融合操作
  • 支持转置GEMM操作,在MMA操作前直接从共享内存进行转置读取

未来发展方向

秉持长期发展理念,DeepSeek将继续坚持开源路线,稳步推进通用人工智能的研究。未来研究将重点关注以下方向:

1

模型架构优化

持续优化模型架构,提升训练和推理效率,探索支持无限上下文长度的高效方案。同时突破Transformer架构的固有局限,拓展模型的建模能力边界。

2

数据质量提升

深化训练数据的质量提升和规模扩展,探索新的训练信号来源,实现数据在多个维度的全面扩展。

3

深层推理能力增强

加强模型的深层推理能力,通过扩展推理的广度和深度,提升模型的智能水平和问题解决能力。

4

多维度评估体系

建立更全面的多维度评估体系,避免过度优化特定基准测试集而产生的能力误判,确保模型评估的科学性和全面性。

常见问题解答

互动区域

登录后可以点赞此内容

参与互动

登录后可以点赞和评论此内容,与作者互动交流