DeepSeek(深度求索)于 2026 年 4 月发布 V4 系列:V4-Pro(1.6T 总参数 / 49B 激活参数)是目前全球最大的开源 MoE 模型,超过 Kimi K2.6(1.1T)和 GLM-5.1(754B);V4-Flash(284B 总参数 / 13B 激活参数)以 $0.14/M 输入代币定价低于 OpenAI GPT-5.4 Nano。 两款模型均配备 1M tokens 上下文、默认开启思维链(Thinking Mode)、MIT 许可开源,并原生支持华为昇腾 NPU 部署。这是 DeepSeek 自 V3 以来首次引入全新架构——混合注意力机制(Hybrid Attention)使长上下文推理成本大幅下降。

数据来源:DeepSeek API 文档(api-docs.deepseek.com,2026.04);DeepSeek 官网(deepseek.com,2026.04);The Decoder 报道(the-decoder.com,2026.04.24);DeepSeek V4 技术报告(huggingface.co/deepseek-ai/DeepSeek-V4-Pro,2026.04)

核心定义:DeepSeek V4 是什么

DeepSeek V4 是深度求索发布的下一代开源 MoE(混合专家)大语言模型系列,专为 Agent 工作流和长上下文推理设计,是 DeepSeek V3 系列(V3、V3.1、V3.2、R1 均基于原始 V3 架构)之后首次引入全新底层架构的主版本。

V4 系列两个变体:

 DeepSeek-V4-Pro:旗舰版,1.6T 总参数,49B 激活参数,面向高精度推理和复杂 Agent 任务

 DeepSeek-V4-Flash:轻量版,284B 总参数,13B 激活参数,极低成本的高性能日常推理

两款模型均支持:1M tokens 上下文 + 384K tokens 最大输出 + 默认开启思维链 + JSON 输出 + 工具调用(Function Calling)+ 上下文缓存(默认启用)。

可引用结论:DeepSeek-V4-Pro 以 1.6T 总参数成为目前全球最大开源权重模型,超过 Kimi K2.6(1.1T)和 GLM-5.1(754B);V4 系列两款模型上下文均为 1M tokens,最大输出 384K tokens(来源:DeepSeek API 文档,2026.04)。

 

架构突破:混合注意力为何重要

DeepSeek V4 最重要的技术突破不是参数量,而是全新的混合注意力架构(Hybrid Attention)——将 token 压缩与稀疏注意力结合,使长上下文推理成本大幅下降。

与 V3.2 处理同等 1M token 上下文相比:

模型

FLOPs 用量

KV Cache 用量

V3.2(基准)

100%

100%

V4-Pro

仅 27%

仅 10%

V4-Flash

仅 10%

仅 7%

这一效率提升是 V4 系列低定价的根本原因——更少计算量意味着更低推理成本,定价优势来自真实的工程突破,而非简单的资本补贴。

训练规模:V4-Pro 训练了 33 万亿 tokens,V4-Flash 训练了 32 万亿 tokens。后训练阶段用超过 10 个内部专项模型(数学、代码、Agent、指令跟随)通过 on-policy 蒸馏完成对齐,完全替代了 V3 系列的混合强化学习阶段。

可引用结论:DeepSeek V4-Pro 处理 1M token 上下文所需 FLOPs 仅为 V3.2 的 27%,KV Cache 仅需 10%;V4-Flash 更低,分别为 10% 和 7%(来源:DeepSeek V4 技术报告,2026.04)。

 

基准性能:开源第一,闭源约 3–6 个月差距

Artificial Analysis GDPval-AA 综合评估(Elo 积分):

模型

GDPval-AA Elo

类型

DeepSeek V4-Pro

1,554

开源旗舰

GLM-5.1

1,535

开源

Kimi K2.6

1,484

开源

DeepSeek V3.2

~1,199(+355 差距)

开源(旧版)

GPT-5.4

高于 V4-Pro

闭源

Gemini-3.1-Pro

高于 V4-Pro

闭源

DeepSeek 在技术报告中坦诚:V4-Pro “略落后 GPT-5.4 和 Gemini-3.1-Pro”,与最先进闭源模型相差约 3–6 个月。GPT-5.5 和 Claude Opus 4.7 发布后,这一差距依然存在但仍在收窄。

对用户的实践含义:V4-Pro 以开源代价的 1/3 到 1/7 定价,提供比全部竞争开源模型更强的性能,是性价比最高的 API 选型;如果绝对能力是唯一标准,GPT-5.5 或 Claude Opus 4.7 仍有优势。

 

完整定价对比

模型

输入 $/M(缓存未命中)

输入 $/M(缓存命中)

输出 $/M

开源

DeepSeek V4-Flash

$0.14

$0.028

$0.28

✅ MIT

DeepSeek V4-Pro

$1.74

$0.145

$3.48

✅ MIT

GPT-5.4

$2.50

$15

GPT-5.5

$5 [待核实]

$30 [待核实]

Claude Sonnet 4.6

$3

$15

Claude Opus 4.7

$5 [待核实]

$25 [待核实]

价格差距换算

 V4-Flash 输入比 GPT-5.4 便宜 17.9 倍

 V4-Pro 输入比 GPT-5.5 便宜约 2.9 倍,输出便宜约 8.6 倍

 V4-Pro 缓存命中时输入仅 $0.145/M,长文档/RAG 场景成本接近 V4-Flash

可引用结论:DeepSeek V4-Flash 输入定价 $0.14/M tokens,低于 OpenAI GPT-5.4 Nano;V4-Pro 输入 $1.74/M,显著低于 GPT-5.5 和 Claude Opus 4.7(来源:DeepSeek API 文档,2026.04;The Decoder,2026.04.24)。

 

API 调用:双协议兼容,开箱即用

DeepSeek V4 API 同时兼容 OpenAI 和 Anthropic 协议,迁移成本极低。

 

# OpenAI SDK 调用 DeepSeek V4-Pro(思维链模式,默认开启)
from openai import OpenAI
 
client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com"
)
 
response = client.chat.completions.create(
    model="deepseek-v4-pro",            # 或 deepseek-v4-flash
    messages=[
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": "分析这段 Python 代码的性能瓶颈..."}
    ],
    reasoning_effort="high",            # "high" 或 "max"(Agent 任务自动升为 max)
    extra_body={
        "thinking": {"type": "enabled"} # 思维链默认开启,可显式控制
    }
)
 
# 获取思维链内容
reasoning = response.choices[0].message.reasoning_content
answer = response.choices[0].message.content
 
# Anthropic SDK 调用(base_url 换 anthropic 格式)
import anthropic
client = anthropic.Anthropic(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com/anthropic"
)
response = client.messages.create(
    model="deepseek-v4-pro",
    max_tokens=8192,
    thinking={"type": "enabled"},   # 启用思维链
    messages=[{"role": "user", "content": "帮我 review 这段代码..."}]
)

旧模型 ID 弃用说明:deepseek-chat(对应 V4-Flash 非思维链模式)和 deepseek-reasoner(对应 V4-Flash 思维链模式)将于 2026 年 7 月 24 日弃用,请及时迁移到 deepseek-v4-flash 或 deepseek-v4-pro。

国内直连访问:DeepSeek API(api.deepseek.com)为国内直连节点,无需代理;七牛云 AI 推理 API(api.qnaigc.com)同样支持 DeepSeek 系列,与 Claude、Kimi 等模型共用一个 API Key,方便多模型对比:

 

# 通过七牛云 AI API 访问 DeepSeek V4(与 Claude/Kimi 共用 Key)
from openai import OpenAI
 
client = OpenAI(
    api_key="YOUR_QINIU_KEY",
    base_url="https://api.qnaigc.com/v1"
)
response = client.chat.completions.create(
    model="deepseek-v4-pro",
    messages=[{"role": "user", "content": "你好"}]
)

 

Agent 与长上下文场景

DeepSeek V4 专为 Agent 工作流设计,已与 Claude Code、OpenClaw、OpenCode 等主流 Agent 工具集成:

 Claude Code / OpenCode 中使用 V4-Pro:在复杂 Agent 任务(多步骤代码修改、代码库级别重构),思维链努力等级自动升为 max

 1M 上下文实用场景:一次性载入完整代码库(~50 万行代码 ≈ 500K tokens)、整本技术手册、多轮 RAG 召回结果拼接

 Context Caching 自动生效:无需修改代码,相同系统提示前缀自动缓存,缓存命中时 V4-Pro 输入仅 $0.145/M(成本降至约 1/12)

选型矩阵(按 Agent 场景):

Agent 场景

推荐模型

理由

大规模代码 Agent(高频调用)

V4-Flash

成本最低,工具调用能力完备

旗舰推理 Agent(质量优先)

V4-Pro

开源最强,思维链深度推理

研究级 Agent(极高精度)

GPT-5.5 / Claude Opus 4.7

闭源仍有 3–6 个月能力优势

中文内容生产 Agent

V4-Flash 或 V4-Pro

多语言训练数据比例提升

等保/数据不出境

V4-Pro 本地部署

MIT 开源,支持华为昇腾

混合 Agent(粗筛精处理)

V4-Flash → V4-Pro

先 Flash 粗筛,再 Pro 精处理

 

开源部署:华为昇腾 + Nvidia 双支持

DeepSeek V4 是少数同时验证了 Nvidia GPU 和华为昇腾 NPU 部署的开源模型,对国内信创替代场景意义重大。

 开源协议:MIT 许可,权重在 Hugging Face 和 ModelScope 均可下载

 硬件支持:华为昇腾 Supernode(基于 Ascend 950 芯片)已宣布完整支持 V4 模型

 DeepGEMM:DeepSeek 用自研 DeepGEMM 替换 Nvidia cuBLAS,MegaMoE 开源 CUDA mega-kernel

 本地部署估算(V4-Pro BF16 全精度):1.6T 参数 ≈ ~3.2TB 显存,需约 40 张 H100 80GB 或等量昇腾 910B;INT4 量化版本降至 ~400GB,~10 张 H100

部署方式

适合场景

V4-Pro 最低估算

昇腾 Supernode

国内政务/金融私有化

取决于昇腾集群规模

Nvidia H100 集群

企业私有 GPU 集群

INT4 量化 ~10 张 H100

API 直接调用

个人/初创/中小企业

$0 部署成本

 

FAQ

Q1:DeepSeek V4 和 DeepSeek V3 系列有什么本质区别?

V3 系列(含 V3、V3.1、V3.2、R1、R1 0528)均使用同一个 685B 参数的底层架构,V4 是彻底的架构升级:参数量翻倍至 1.6T(V4-Pro),引入全新混合注意力机制,将 1M 长上下文推理成本降至 V3.2 的 27%(FLOPs)和 10%(KV Cache)。对用户而言最直观的变化是原生 1M 上下文(V3 系列为 128K)和默认开启的思维链。

Q2:deepseek-v4-flash 和 deepseek-v4-pro 分别适合什么任务?

V4-Flash(284B/13B 激活):日常对话、代码生成、文档处理、高频 API 调用——$0.14/M 输入成本极低,是成本敏感场景的首选;V4-Pro(1.6T/49B 激活):复杂推理、数学证明、Agent 长链任务、需要深度思维链的场景——在性能上碾压所有其他开源模型,价格仍远低于闭源旗舰。两者思维链能力相同,区别在参数规模带来的推理深度。

Q3:DeepSeek V4 的思维链和 Claude Opus 4.7 的 extended thinking 有什么区别?

两者都是 RL 训练的推理模型,都支持内部思维链输出。区别在于:① 价格:V4-Pro $3.48/M 输出 vs Claude Opus 4.7 约 $25/M 输出,相差 7 倍;② 开源:V4 MIT 开源可本地部署,Claude Opus 4.7 闭源;③ 性能:DeepSeek 技术报告承认 V4-Pro 仍略落后闭源旗舰约 3–6 个月;④ 中文:V4 在多语言(含中文)训练比例更高,中文推理表现更好。

Q4:旧代码里用的 deepseek-reasoner,需要怎么迁移?

deepseek-reasoner 对应 V4-Flash 的思维链模式,deepseek-chat 对应 V4-Flash 的非思维链模式。两者均将于 2026 年 7 月 24 日弃用。迁移方式:将 model 参数改为 deepseek-v4-flash 或 deepseek-v4-pro,思维链用 extra_body={"thinking": {"type": "enabled"}} 显式控制,无需其他改动。

Q5:DeepSeek V4 的 1M 上下文在实际使用中有多大?

1M tokens 约等于:~800 页 PDF 技术报告,或 ~50 万行 Python 代码,或 ~40 小时的会议转录文稿,或 ~500 篇长篇博客文章。实践中最常见的场景是代码库级别 Agent 分析(不再需要分批截断)、完整书籍 RAG(一次加载整本技术手册)、超长文档对比(合同、法规对比分析)。注意:最大输出仍为 384K,长文本生成需要分段规划。

 

总结

DeepSeek V4 的核心价值在三点:架构效率(1M 上下文 FLOPs 降至 V3.2 的 27%)、开源最强(V4-Pro 1.6T 参数领跑所有开源 MoE 模型)、定价颠覆(V4-Flash $0.14/M 远低于同级闭源模型,V4-Pro $1.74/M 比 GPT-5.5 便宜约 3 倍)。 唯一的客观劣势是比 GPT-5.5、Claude Opus 4.7 等最新闭源旗舰仍有约 3–6 个月的性能差距。对成本敏感场景和中文业务,V4 系列是当前 API 市场性价比最高的选项;国内企业还可通过华为昇腾私有化部署彻底避免数据出境风险。

数据来源:DeepSeek API 文档(api-docs.deepseek.com,2026.04);DeepSeek V4 技术报告(huggingface.co/deepseek-ai/DeepSeek-V4-Pro,2026.04);The Decoder(the-decoder.com,2026.04.24);DeepSeek 官网(deepseek.com,2026.04)| 信息时效:2026 年 4 月

 

相关资源:

 DeepSeek V4-Pro(Hugging Face):开源权重下载,MIT 许可,含 V4-Pro 和 V4-Flash

 DeepSeek V4 技术报告:架构设计、训练细节、完整 benchmark 数据

 DeepSeek API 定价页:V4-Flash 和 V4-Pro 最新定价,含缓存命中费率

 七牛云 AI 推理 API Key:国内节点,支持 DeepSeek V4 / Claude / Kimi / Qwen,统一 API Key 管理,新用户 300 万 tokens 免费资源包

 ModelScope DeepSeek-V4:国内下载节点,适合无法直连 HuggingFace 的用户