https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
DeepSeek-V3 技術報告摘要
1. 簡介
DeepSeek-V3 是一款 Mixture-of-Experts (MoE) 大型語言模型,總參數達 6710 億,每個 token 啟動 370 億參數。該模型使用 Multi-Head Latent Attention (MLA) 和 DeepSeekMoE 架構,提高推理效率並降低訓練成本。此外,DeepSeek-V3 無需輔助損失 來進行負載平衡,並採用了 多 token 預測目標 來提升效能。
2. 訓練與成本
- 預訓練數據量:14.8 兆高品質 token
- 訓練成本:2.788M H800 GPU 小時(約 557.6 萬美元)
- 訓練過程中無不可恢復的損失尖峰,穩定性高。
3. 主要技術創新
-
架構創新
- MLA 提高推理效率,減少 KV 緩存需求。
- DeepSeekMoE 採用 輔助損失自由負載平衡策略,避免 MoE 路由崩潰問題。
- 多 token 預測 (Multi-Token Prediction, MTP) 提高訓練效率與生成質量。
-
訓練優化
- FP8 混合精度訓練:首次在大規模模型中驗證 FP8 訓練的可行性,有效降低計算與記憶體成本。
- DualPipe 演算法:優化流水線並隱藏跨節點通信開銷,提高計算效率。
- 極端節省記憶體技術:動態調整通信通道、共享嵌入與輸出層,減少計算負擔。
4. 評測結果
- 知識與推理能力
- MMLU-Pro(教育測試集): 75.9%,領先所有開源模型。
- GPQA(知識問答): 59.1%,與 GPT-4o、Claude-3.5-Sonnet 接近。
- 數學與程式碼能力:
- MATH-500(數學競賽): 90.2%,超越 GPT-4o。
- Codeforces(程式競技): 51.6%,為開源模型之最。
5. 總結與未來方向
DeepSeek-V3 在開源領域達到了新的性能標準,特別是在數學和程式碼領域,甚至超越部分封閉模型。未來研究方向包括:
- 進一步優化推理效率,探索更高效的 MoE 負載均衡策略。
- 提高長上下文處理能力,進一步擴展上下文長度至 256K 甚至更長。
- 多模態能力拓展,加入影像、語音等額外的數據處理能力。
這份報告提供了 DeepSeek-V3 的完整技術細節,包括架構設計、訓練流程、優化技術及評測結果。完整模型權重與代碼可在 GitHub 上獲取:
No comments:
Post a Comment