>
正文
DeepSeek 开源 V4:性能对标 Opus 4.6,Flash 版价格直降 50%
2026-04-24 13:29

DeepSeek 今日正式宣布开源发布 V4 系列预览版本,相关模型参数已依据 MIT 许可证在 Hugging Face 和 ModelScope 平台公开。该系列包含两个混合专家模型(MoE):V4-Pro 总参数量达 1.6 万亿,单标记激活参数量为 490 亿至 4900 亿;V4-Flash 总参数量为 2840 亿,激活参数量为 130 亿至 1300 亿。两款模型均原生支持 100 万标记的上下文处理能力,标志着长文本处理进入新阶段。午方 AI 获悉,此次发布不仅涉及模型架构升级,更伴随着 API 定价策略的重大调整,旨在通过技术迭代重塑开源模型的市场竞争力。

V4 系列在架构层面实施了三项关键革新。首先,引入压缩稀疏注意力机制与强化压缩注意力机制,显著降低了长上下文处理开销;在 100 万标记场景下,V4-Pro 的单标记推理计算量仅为 V3.2 版本的 27%,键值缓存占用量更是缩减至 V3.2 的 10%。其次,采用新型连接结构替代传统残差连接,增强了跨层信号传播的稳定性。最后,预训练数据总量突破 32 万亿标记,为模型能力奠定了坚实基础。V4-Pro 的微调策略分为两阶段:先利用 SFT 和 GRPO 强化学习训练领域专用模型,再通过在线蒸馏整合为统一模型。

在性能基准测试中,V4-Pro-Max 展现了与顶级闭源模型抗衡的实力。在 Codeforces 测试中,其得分 3206 分,超越了 GPT-5.4 的 3168 分和 Gemini 3.1 Pro 的 3052 分,创下新纪录;LiveCodeBench 得分 93.5 分,SWE Verified 得分 80.6 分,仅以 0.2 个百分点的微弱差距落后于 Opus 4.6。尽管在 CorpusQA 1M(62.0 分)和 MRCR 1M(83.5 分)等长文本理解任务中仍略逊于 Opus 4.6,但在 MCPAtlas Public 和 Terminal-Bench 2.0 等特定场景中也保持了强劲表现。午方 AI 了解到,作为开源模型,V4-Pro-Max 在编码和长上下文任务中首次达到甚至超越部分闭源旗舰水平,但在依赖海量知识储备的 GPQA Diamond 和 SimpleQA-Verified 测试中,仍落后于 Gemini 3.1 Pro。

内部实测数据进一步验证了模型的工程实用性。研究团队从 50 多名工程师处收集约 200 个真实研发任务样本,涵盖功能开发、错误修复及故障诊断,最终筛选出 30 个高难度任务。V4-Pro-Max 在这些任务中的通过率为 67%,显著高于 Sonnet 4.5 的 47%,接近 Opus 4.5 的 70%,但略低于 Opus 4.5 Thinking 的 73% 和 Opus 4.6 Thinking 的 80%。针对 85 名员工的内部调查显示,100% 的受访者日常使用 V4-Pro 进行编码,其中 52% 将其作为首选模型,仅不到 9% 持否定意见。用户反馈的主要痛点集中在低级错误、模糊指令理解偏差及偶尔的过度思考现象。

在数学推理领域,V4 系列同样表现亮眼。在 Putnam-200 Pass@8 实用场景测试中,V4-Flash-Max 结合 LeanExplore 工具获得 81.00 分,远超 Seed-2.0-Prover 的 35.50 分及 Gemini 3 Pro 的 26.50 分。而在前沿场景测试中,V4 采用混合推理策略,先通过非正式推理生成候选方案并自我验证,再由正式推理引擎在 Lean 环境中完成严格证明。在 Putnam-2025 测试中,V4 取得 120/120 满分,与 Axiom 并列第一,超越了 Seed-1.5-Prover 的 110 分和 Aristotle 的 100 分。午方 AI 监测到,虽然前沿测试依赖大规模算力,但实用场景结果更能反映模型在实际生产环境中的落地能力。

商业层面,DeepSeek 同步更新了 V4 API 定价策略。V4-Flash 直接取代 V3.2 版本,不仅维持原有价格,更大幅下调费用:缓存命中输入费为每百万标记 0.2 元,缓存未命中输入费从 2 元降至 1 元(降幅 50%),输出费从 3 元降至 2 元(降幅 33%),同时上下文能力从 128K 跃升至 100 万标记。V4-Pro 作为高端版本,缓存未命中输入费为 12 元,输出费为 24 元,是 V3.2 的 8 倍。官方指出,受限于高端算力资源,V4-Pro 目前吞吐量受限,但预计今年下半年新增 950 个超级节点后价格将大幅下降。旧版模型名称 deepseek-chat 和 deepseek-reasoner 将于 2026 年 7 月 24 日停用。

支撑此次技术突破的底层基础设施也首次公开,即生产级 Elastic Compute Sandbox 和 DCSec(DeepSeek 弹性计算平台)。该系统采用 Rust 语言编写,集成内部 3FS 分布式文件系统,单个集群可调度数十万个测试环境,有效解决了大规模测试启动缓慢的难题。DCSec 提供 Python SDK,支持函数调用、容器、微型虚拟机及完整虚拟机四种执行环境的无缝切换。针对任务抢占问题,系统引入全局跟踪日志,实现任务恢复时的“快进”机制,既加速了测试进程,又避免了非幂等性问题。DeepSeek 明确表示,未来 100 万标记上下文能力将成为所有官方服务的标准配置。

免责声明:本内容为作者独立观点,不代表平台立场。未经允许不得转载,文中内容仅供参考,不作为实际操作建议,交易风险自担。
标签:
GPT-5.5
Sonnet 4.5
V4-Pro-Max
V4-Pro
Opus 4.7
GLM-5.1
V4
ModelScope
DSec
Seed-1.5-Prover
3FS
Opus 4.6 Max
Kimi K2.6
V4-Flash
Haiku 4.5
DeepSeek Elastic Compute
Aristotle
GPT-5.4
Gemini 3 Pro
Seed-2.0-Prover
Gemini 3.1 Pro
LeanExplore
DeepSeek
V4-Flash-Max
分享:
back