DeepSeek V4 正式版官宣:7 月中旬上线,推理计算量仅为 V3 的 27%
发布日期:2026-06-30 | 数据来源:DeepSeek 官方邮件通知、API 文档
DeepSeek V4 正式版由深度求索(DeepSeek)官方于 2026 年 6 月 29 日向 API 用户发送邮件宣布,计划 7 月中旬正式上线,同步推出 V4-Pro 和 V4-Flash 双模型,并首次引入峰谷定价机制——高峰时段 API 价格为平时的 2 倍。技术层面,V4-Pro 总参数达 1.6 万亿(激活 490 亿),V4-Flash 总参数 2840 亿(激活 130 亿),两款模型均支持 100 万 token 超长上下文,推理计算量仅为前代 V3.2 的 27%,显存占用降至前代的 10%,以 MIT 开源协议发布。

V4 是什么?双模型 + 超长上下文
DeepSeek V4 不是单一版本,而是两款同步推出的模型:
两款模型均采用 MoE(Mixture-of-Experts)稀疏激活架构——总参数庞大,但每次推理只激活其中一小部分,这正是推理计算量大幅下降的核心原因。
100 万 token 的上下文意味着:单次对话可以塞进约 75 万字的中文文本,完整读完一部百万字小说、一个大型代码库、或数百页的法律合同,不需要截断或分批处理。
与此同时,V4 的 API 兼容 OpenAI 和 Anthropic 双格式,模型名直接替换为 deepseek-v4-flash 或 deepseek-v4-pro,现有调用代码不需要大改。
最值得关注的变化:推理效率
推理计算量仅为 V3.2 的 27%,显存占用仅为前代 10%——这两个数字是目前官方披露的 V4 最核心技术指标(来源:DeepSeek 官方邮件,2026 年 6 月 29 日)。
对开发者来说,这意味着:
● 自部署成本大幅下降,消费级显卡跑 V4-Flash 成为可能
● 云端推理单位成本更低,高并发场景优势明显(V4-Flash 并发上限 2500,V4-Pro 为 500)
● Agent 任务中多轮长对话的 token 消耗压缩明显
V4-Flash 的定价也印证了这一点:平时输入(缓存未命中)仅 ¥1/百万 token,缓存命中降至 ¥0.01/百万 token,是目前主流大模型中性价比最高的档位之一。
峰谷定价:史上首次,高峰时段涨价 2 倍
这是 DeepSeek V4 带来的另一个行业新动作——首次在大模型 API 中引入电力行业常见的峰谷计费模式。
高峰时段(每日):
● 上午 9:00 – 12:00
● 下午 14:00 – 18:00
完整价格表(每百万 token,人民币):
对于批量处理、离线任务、非实时 Agent 来说,调到平时时段调用,成本直接减半。高峰时段适合对响应延迟有要求的实时场景。
现在怎么接入 V4?
目前 V4 处于预览阶段,API 文档已上线,正式版 7 月中旬启用,届时 deepseek-chat 和 deepseek-reasoner 旧模型名将于 2026 年 7 月 24 日废弃,需提前迁移。
Python 接入(OpenAI SDK 格式):
from openai import OpenAI
client = OpenAI(
api_key="YOUR_DEEPSEEK_API_KEY",
base_url="https://api.deepseek.com"
)
response = client.chat.completions.create(
model="deepseek-v4-pro", # 或 deepseek-v4-flash
messages=[{"role": "user", "content": "你好"}]
)
开启推理模式(思维链):
# 在请求参数中添加
extra_body={"thinking": {"type": "enabled"}}
国内开发者如果同时在跑多个模型项目,可以用七牛云 AI统一管理接口——同一套 OpenAI SDK 代码,换 base_url 就能在 DeepSeek V4、Claude Opus 4.8、GPT-5.5 之间切换,不用分别维护多套 API Key 和鉴权逻辑。
常见问题
Q:V4 和 V3 最大的区别是什么?
最核心的两点:推理计算量降至 V3.2 的 27%、显存占用降至前代的 10%。这不只是性能提升,而是架构层面的效率革命,使得本地部署和高并发场景的边际成本大幅下降。上下文窗口也从 V3 的 128K 扩展到 V4 的 100 万 token,覆盖了大型代码库迁移、长文档分析等以前需要拆分处理的场景(来源:DeepSeek API 文档,2026 年 6 月)。
Q:峰谷定价对我影响大吗?
取决于你的用量结构。如果是批量数据处理、离线 RAG 索引、非实时 Agent 任务,直接错开高峰时段(避开工作日 9-12 点和 14-18 点),成本砍半。如果是面向用户的实时应用,高峰时段不可避免,需要把高峰价格纳入成本估算(V4-Pro 高峰输出 ¥12/MTok)。
Q:MIT 开源意味着什么?
DeepSeek V4 以 MIT 协议开源,意味着可商用、可修改、可私有化部署,只需保留版权声明。这使得企业可以在本地部署 V4-Flash 模型,数据不出内网。配合 V4-Flash 仅为前代 10% 的显存占用,中小企业用单张高端 GPU 部署成为现实。
Q:旧的 deepseek-chat 调用什么时候失效?
根据官方通知,deepseek-chat 和 deepseek-reasoner 旧模型名将于 2026 年 7 月 24 日废弃。建议在 7 月 15 日(正式版上线后)完成迁移测试,替换为 deepseek-v4-pro 或 deepseek-v4-flash。接口格式不变,只需更新模型名字段。
权威来源:
● DeepSeek 官网(2026-06-29 邮件通知)
● DeepSeek API 文档(定价与接入)
● 多模型 API 统一接入:七牛云 AI 大模型广场
本文基于 2026 年 6 月 30 日公开信息,正式版规格以 DeepSeek 7 月官方发布为准。