科技圈最近被DeepSeek的动向搅得热火朝天,市场目光全聚焦于此,各类关于其估值溢价以及与国产算力芯片适配的传闻铺天盖地。在这股狂热浪潮中,大众的关注点大多集中在“百万上下文”这一吸睛标签,或是跑分榜单上那微乎其微的分数差距,却忽略了这家机构背后更深层次的战略布局。
从技术报告来看,DeepSeek V4 - Pro成绩斐然。在SimpleQA - Verified测试中,它以20个绝对百分点的优势遥遥领先所有开源对手;在Codeforces代码竞赛里,预期评分与GPT - 5.4持平。不过,在世界知识广度上,它稍逊于Gemini - 3.1 - Pro;面对极高难度复杂任务时,与Claude Opus 4.6也存在细微差距。但这些分数层面的比较,并非DeepSeek的核心追求。
大模型领域的发展风向已然改变。过去几年,行业热衷于比拼参数数量和跑分高低,将模型层作为竞争焦点。然而,这种模式已走到尽头。DeepSeek V4的出现,为行业树立了新标杆,它表明模型只是高效工程系统的附带产物,真正的竞争已转向系统层。
DeepSeek V4在设计上展现出独特的反直觉理念,其中Pro和Flash的共生关系尤为引人注目。传统认知中,“Pro”与“Flash”常被视为不同定位的产品,前者用于树立标杆,后者用于开拓下沉市场。但在DeepSeek V4这里,二者并非简单的算力降级关系,而是验证同一底层逻辑的对照组。
大模型以往的长文本能力,主要依赖大量显存堆砌,只要GPU和显存足够,就能处理长文本,但成本高昂,难以在商业环境中广泛应用。V4 - Pro拥有1.6T总参数和49B激活参数,将容量推向极致。而真正令人惊艳的是V4 - Flash,它仅有284B总参数和13B激活参数。在众多高难度测试中,13B激活参数的Flash - Base竟超越了上一代37B激活参数的V3.2 - Base。这充分证明,算力霸权并非不可打破,通过架构重构,能在极小激活代价下实现高效能力,参数规模不再是决定性因素,调度能力成为新的竞争关键。
在软件效率方面,DeepSeek V4在“后训练”阶段也进行了大胆创新。传统大模型“后训练”常用的混合强化学习(Mixed RL),如同“和稀泥”,在让模型具备多种能力时,会导致特化能力被磨平,最终成为平庸的通才。V4则另辟蹊径,先独立培养各类专家,如数学专家专注算数,代码专家专注编程,将单一能力发挥到极致。在合并阶段,摒弃业内常用的参数平均法,采用同策略蒸馏(OPD)。传统权重合并是静态妥协,而OPD是动态接管,统一模型在生成轨迹时,遇到不同问题精准引入相应专家梯度,各司其职,避免参数冲突。
V4应用端的“三种推理模式”(无思考、高强度思考、极限思考),并非简单的界面功能,而是OPD机制在产品端的直接体现。在极限思考模式下,模型会强制分解问题、穷尽边缘情况,这种“死磕”行为源于OPD阶段对“数学专家”和“编程专家”的高强度训练。
对于长上下文的应用,DeepSeek V4也给出了切实可行的方案。在真实商业场景中,Agent需要完成重构代码、跨系统验证数据等复杂任务,过程中“失忆”问题严重影响效率。V3.2就存在新消息打断导致思考痕迹清空的痛点,对于长时间运行的Agent任务,一旦中断需从头开始,这在实际业务中难以接受。V4提出的“交织思考”策略,根据场景灵活处理。在带工具调用的长程场景中,跨越消息边界时完整保留推理链条;闲聊场景则清空以节省算力,让模型学会“在合适场合记住关键信息”。
V4在快速指令(Quick Instruction)方面也有创新。传统意图识别依赖外部小模型,每次新请求都需重新处理提示词,浪费预填充计算。V4直接在输入序列末尾插入隐式指令,复用主模型的海量特征(KV Cache),避免冗余计算,为长程Agent运行提供有力支持。
在部署层面,DeepSeek V4同样展现出严谨的工程态度。文档中提到自动生成的kernel与手写CUDA逐位比对,确保精确无误,这种对工程细节的执着,为部署计算提供了可靠保障。面对高并发的百万上下文场景,DeepSeek V4列出三种调度策略,各有优劣。“完全缓存”追求计算零冗余,但可能因高频写入挤爆固态硬盘I/O通道;“定期检查点”保护硬盘,却需GPU为丢失的尾部数据善后;“零缓存”省下存储带宽,但依赖GPU现场硬算。这三种策略反映了硬件寿命、并发峰值和用户延迟容忍度之间的复杂权衡,凸显出AI产业正从算力密集型向调度密集型转变。










