DeepSeek V4 正式版官宣：7 月中旬上线，推理计算量仅为 V3 的 27%

发布日期：2026-06-30 | 数据来源：DeepSeek 官方邮件通知、API 文档

DeepSeek V4 正式版由深度求索（DeepSeek）官方于 2026 年 6 月 29 日向 API 用户发送邮件宣布，计划 7 月中旬正式上线，同步推出 V4-Pro 和 V4-Flash 双模型，并首次引入峰谷定价机制——高峰时段 API 价格为平时的 2 倍。技术层面，V4-Pro 总参数达 1.6 万亿（激活 490 亿），V4-Flash 总参数 2840 亿（激活 130 亿），两款模型均支持 100 万 token 超长上下文，推理计算量仅为前代 V3.2 的 27%，显存占用降至前代的 10%，以 MIT 开源协议发布。

V4 是什么？双模型 + 超长上下文

DeepSeek V4 不是单一版本，而是两款同步推出的模型：

模型	总参数	激活参数	上下文窗口	最大输出
V4-Pro	1.6 万亿	490 亿	100 万 token	384K
V4-Flash	2840 亿	130 亿	100 万 token	384K

两款模型均采用 MoE（Mixture-of-Experts）稀疏激活架构——总参数庞大，但每次推理只激活其中一小部分，这正是推理计算量大幅下降的核心原因。

100 万 token 的上下文意味着：单次对话可以塞进约 75 万字的中文文本，完整读完一部百万字小说、一个大型代码库、或数百页的法律合同，不需要截断或分批处理。

与此同时，V4 的 API 兼容 OpenAI 和 Anthropic 双格式，模型名直接替换为 deepseek-v4-flash 或 deepseek-v4-pro，现有调用代码不需要大改。

最值得关注的变化：推理效率

推理计算量仅为 V3.2 的 27%，显存占用仅为前代 10%——这两个数字是目前官方披露的 V4 最核心技术指标（来源：DeepSeek 官方邮件，2026 年 6 月 29 日）。

对开发者来说，这意味着：

● 自部署成本大幅下降，消费级显卡跑 V4-Flash 成为可能

● 云端推理单位成本更低，高并发场景优势明显（V4-Flash 并发上限 2500，V4-Pro 为 500）

● Agent 任务中多轮长对话的 token 消耗压缩明显

V4-Flash 的定价也印证了这一点：平时输入（缓存未命中）仅 ¥1/百万 token，缓存命中降至 ¥0.01/百万 token，是目前主流大模型中性价比最高的档位之一。

峰谷定价：史上首次，高峰时段涨价 2 倍

这是 DeepSeek V4 带来的另一个行业新动作——首次在大模型 API 中引入电力行业常见的峰谷计费模式。

高峰时段（每日）：

● 上午 9:00 – 12:00

● 下午 14:00 – 18:00

完整价格表（每百万 token，人民币）：

模型	时段	输入（缓存未命中）	输入（缓存命中）	输出
V4-Flash	平时	¥1	¥0.01	¥2
V4-Flash	高峰	¥2	¥0.02	¥4
V4-Pro	平时	¥3	¥0.5	¥6
V4-Pro	高峰	¥6	¥1	¥12

对于批量处理、离线任务、非实时 Agent 来说，调到平时时段调用，成本直接减半。高峰时段适合对响应延迟有要求的实时场景。

现在怎么接入 V4？

目前 V4 处于预览阶段，API 文档已上线，正式版 7 月中旬启用，届时 deepseek-chat 和 deepseek-reasoner 旧模型名将于 2026 年 7 月 24 日废弃，需提前迁移。

Python 接入（OpenAI SDK 格式）：

from openai import OpenAI
 
client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com"
)
 
response = client.chat.completions.create(
    model="deepseek-v4-pro",   # 或 deepseek-v4-flash
    messages=[{"role": "user", "content": "你好"}]
)

开启推理模式（思维链）：

# 在请求参数中添加
extra_body={"thinking": {"type": "enabled"}}

国内开发者如果同时在跑多个模型项目，可以用七牛云 AI统一管理接口——同一套 OpenAI SDK 代码，换 base_url 就能在 DeepSeek V4、Claude Opus 4.8、GPT-5.5 之间切换，不用分别维护多套 API Key 和鉴权逻辑。

常见问题

Q：V4 和 V3 最大的区别是什么？

最核心的两点：推理计算量降至 V3.2 的 27%、显存占用降至前代的 10%。这不只是性能提升，而是架构层面的效率革命，使得本地部署和高并发场景的边际成本大幅下降。上下文窗口也从 V3 的 128K 扩展到 V4 的 100 万 token，覆盖了大型代码库迁移、长文档分析等以前需要拆分处理的场景（来源：DeepSeek API 文档，2026 年 6 月）。

Q：峰谷定价对我影响大吗？

取决于你的用量结构。如果是批量数据处理、离线 RAG 索引、非实时 Agent 任务，直接错开高峰时段（避开工作日 9-12 点和 14-18 点），成本砍半。如果是面向用户的实时应用，高峰时段不可避免，需要把高峰价格纳入成本估算（V4-Pro 高峰输出 ¥12/MTok）。

Q：MIT 开源意味着什么？

Q：旧的 deepseek-chat 调用什么时候失效？

根据官方通知，deepseek-chat 和 deepseek-reasoner 旧模型名将于 2026 年 7 月 24 日废弃。建议在 7 月 15 日（正式版上线后）完成迁移测试，替换为 deepseek-v4-pro 或 deepseek-v4-flash。接口格式不变，只需更新模型名字段。

权威来源：

● DeepSeek 官网（2026-06-29 邮件通知）

● DeepSeek API 文档（定价与接入）

● DeepSeek API 定价页

● 多模型 API 统一接入：七牛云 AI 大模型广场

本文基于 2026 年 6 月 30 日公开信息，正式版规格以 DeepSeek 7 月官方发布为准。