DeepSeek-V4发布:华为昇腾助力,性能提升,价格亲民开启新篇章

   时间:2026-04-25 00:01 来源:快讯作者:冯璃月

DeepSeek近日正式推出V4系列大模型,包含Pro与Flash两个版本,分别对应官方网页端专家模式与APP快速模式。此次升级在模型架构、长上下文处理能力及价格策略上实现突破,同时宣布与华为昇腾达成算力合作,引发行业广泛关注。

技术参数方面,V4-Pro模型参数达1.6万亿,激活量490亿,预训练数据规模33万亿;Flash版本参数2840亿,激活量130亿,预训练数据32万亿。两个版本均支持100万tokens上下文窗口,提供非思考与思考双模式选择。DeepSeek强调,通过全新注意力机制与DSA稀疏注意力技术,V4系列在保持全球领先长上下文能力的同时,将计算资源需求降低40%以上。

价格体系呈现显著差异化:V4-Pro输入定价每百万tokens 1元,输出12元;Flash版本输入0.2元,输出2元。这种梯度定价策略被网友评价为"普惠型创新"。值得注意的是,受制于高端算力供应,Pro版本当前服务吞吐量受限,预计昇腾950超节点下半年批量上市后,其成本将下降60%以上。

性能评测显示,V4-Pro在Agentic Coding任务中达到开源模型最优水平,成为DeepSeek内部开发主力工具。世界知识测试中,该模型超越所有开源竞品,仅落后于Gemini-Pro-3.1;数学与竞赛编程领域则比肩GPT-5.4等顶级闭源模型。推理能力方面,Pro-Max模式在标准基准测试中优于GPT-5.2,但与最新闭源模型存在3-6个月代差。

Flash版本在保持90%核心性能的同时,将响应速度提升3倍,特别适合实时交互场景。在简单Agent任务中,其表现与Pro版本持平,但复杂任务处理能力存在15%-20%差距。两个版本均已同步上线DeepSeek API,兼容OpenAI与Anthropic接口标准。

技术白皮书披露,V4系列在架构层面实现三大创新:混合注意力机制使长文本处理效率提升2.3倍;流形约束超连接技术解决深层网络信号衰减问题;Muon优化器将训练收敛速度加快40%。但研究团队也承认,为追求极致效率,当前架构包含较多经验性组件,在复杂指令遵循与极端摘要任务上仍有改进空间。

此次发布前夕,DeepSeek被曝启动首轮外部融资,计划以超100亿美元估值募集3亿美元。知情人士透露,融资将主要用于算力基础设施扩建与顶尖人才招募。此前坚持独立发展的DeepSeek,此次战略调整被解读为应对多模态竞争的必要举措——目前其模型仍局限于文本领域,而主要竞品均已实现图文音视频全模态覆盖。

 
 
更多>同类内容
全站最新
热门内容