1. 概要
DeepSeek-V3は、6710億パラメータを有する最先端のMixture-of-Experts(MoE)型大規模言語モデルである。トークンごとの活性化パラメータ数は370億に抑えられ、効率性と性能の両立が図られている。本モデルはDeepSeek-V2を基盤としつつ、以下の革新的な技術を新たに導入している:
• 補助損失を用いないロードバランシング手法
• マルチトークン予測(Multi-Token Prediction: MTP)機構
事前学習には14.8兆トークンを使用し、続いて教師あり微調整(SFT)と強化学習(RL)を実施。最終的には、GPT-4oやClaude 3.5 Sonnetといったクローズドソースの最先端モデルに匹敵する性能を実現している。
2. アーキテクチャ上の主要技術
Multi-Head Latent Attention (MLA)
MLAは、キー・バリューキャッシュを低ランクで圧縮する手法であり、大規模文脈に対する推論の効率性を大幅に向上させている。
DeepSeekMoE構造
DeepSeekMoEは、固定的な「共有エキスパート」と動的に選択される「ルーティングエキスパート」から構成されている。特に、従来のMoEで用いられていた補助損失を排除し、代わりにエキスパートバイアスを動的に調整することで、高精度かつ安定した学習を可能にしている。
マルチトークン予測(MTP)
MTPは、複数のトークンを逐次的に予測する仕組みであり、学習時の信号を強化するとともに、推論時の「投機的デコーディング」に活用されることで、高速化に寄与している。
3. 学習効率と計算資源の最適化
DeepSeek-V3の訓練には合計で2.788M時間のH800 GPU時間が使用された。この中には事前学習、長文文脈拡張、ポストトレーニングすべてが含まれている。効率性の観点では、以下の技術的最適化が実装されている:
• FP8混合精度:メモリ効率と計算速度を両立
• DualPipeパイプライン並列:通信と計算の重複によりスループットを最大化
• 高効率All-to-All通信:NVLinkおよびInfiniBandを活用したノード間通信最適化
4. 事前学習と文脈拡張
事前学習には高品質な多言語コーパスが用いられ、数学・プログラミングデータが強化された。また、コード向けタスクではFill-in-the-Middle(FIM)方式が活用されている。
長文対応では、YaRN(Yet another RoPE NTF)を活用し、文脈長を128Kトークンまで拡張。これにより「Needle in a Haystack」課題においても高い性能を示した。
主なモデル設定は以下の通りである:
• 層数:61
• 隠れ次元数:7168
• エキスパート数:256(1トークンあたり8つ活性化)
• 精度設定:FP8とBF16の混合
5. ポストトレーニングと評価
ポストトレーニング段階では以下の技術が用いられている:
• 教師あり微調整(SFT):150万件のインスタンスに基づき実施。DeepSeek-R1による推論強化データと人手検証による一般データを適切にバランス。
• 強化学習(RL):ルールベースおよびモデルベースの報酬モデルを統合。最適化にはGroup Relative Policy Optimization(GRPO)を採用。
• 蒸留:DeepSeek-R1から推論能力を移転し、特に数学およびコード領域での性能を大幅に向上。
6. 制約と今後の展望
現在の制約
DeepSeek-V3は高性能を実現しているが、そのデプロイには大規模GPUクラスター(例:320 GPU)が必要であり、一般的な利用環境では制限が生じる可能性がある。
今後の方向性
今後の開発では以下の要素に注力する予定である:
• 無限文脈に対応可能なアーキテクチャの開発
• より深い推論能力の獲得とデータの拡張
• ベンチマークに依存しすぎない包括的な評価基盤の構築