DeepSeek Thinking with Visual Primitives:边指边想的多模态推理范式
Summary
DeepSeek 在 2026-05-01 开源新多模态范式 Thinking with Visual Primitives。核心命题:当前 MLLM 的瓶颈不是"看不清"(Perception Gap,已被高分辨率裁剪/动态分块解决),而是"指不准"(Reference Gap)——自然语言描述空间位置时丢失精确锚点。解法:把边界框 box 和点 point 提升为与语言 token 同级的"最小思考单元",让模型边推理边指。基于 DeepSeek-V4-Flash(284B/13B MoE)+ 自研 DeepSeek-ViT,仅用约 90 个视觉 KV 条目就达到 7 项基准 77.2% 的均分(Token 数仅 GPT-5.4 的 1/8);在拓扑推理(迷宫/路径追踪)上断层领先,66.9% / 56.7% vs 次高 50.6% / 46.5%。
Key Concepts
- 指代鸿沟 (Reference Gap) — 语言空间连续模糊,视觉空间精确离散;语言锚定丢失导致推理与图像实体脱节,引发级联幻觉
- 视觉基元 (Visual Primitives) — bounding box 与 point 作为推理 token,与语言 token 交错出现在 CoT 中
- 边指边想 (Point While It Reasons) — 区别于"说完再指",推理过程中实时输出空间锚点
- Compressed Sparse Attention (CSA) — KV Cache 层的视觉 token 三级压缩:14×14 patch → 3×3 → CSA
- 五阶段后训练 — Pretraining → Specialized SFT (Box/Point 双专家) → Specialized RL (GRPO) → Unified RFT → On-Policy Distillation
- 拓扑推理盲区 — 所有前沿模型在迷宫导航/路径追踪上接近随机;视觉基元打破此盲区
- 感知 vs 指代鸿沟 — Perception Gap(看不清)已解决;Reference Gap(指不准)才是真瓶颈
Tags
deepseek, multimodal-llm, visual-primitives, reference-gap, spatial-reasoning, maze-navigation, path-tracing, moe, grpo, kv-cache-compression
Detailed Content
问题诊断的认知升级
| 鸿沟 | 表现 | 解决方案 | 状态 |
|---|---|---|---|
| Perception Gap(感知鸿沟) | 看不清细节 | 高分辨率裁剪、动态分块 | 已解决 |
| Reference Gap(指代鸿沟) | 看清了但描述不准、推理脱节 | 视觉基元(box/point)锚定 | 本论文解决 |
为什么"边指边想"有效
类比人类:数密集物体或走迷宫时,本能地用手指指向目标——把抽象语义概念锚定到物理坐标,降低工作记忆负担。
模型实现:
推理步骤 N: 让我看左边第二个红球
推理步骤 N+1: <|ref|>左边第二个红球<|/ref|><|box|>x1,y1,x2,y2<|/box|>
推理步骤 N+2: 这个红球的下方是...
每个语言 mention 必须配空间锚点,从源头消除"语义漂移"。
架构压缩链(756×756 输入示例)
571,536 像素
↓ 14×14 Patch Embedding
2,916 patch token
↓ 3×3 压缩
324 token 送入 LLM
↓ Compressed Sparse Attention (CSA)
81 个视觉 KV 条目(最终保留)
Token 效率对比:
- DeepSeek:~90 视觉 KV / ~361 总 token
- GPT-5.4:~740
- Claude-Sonnet-4.6:~870
- Gemini-3-Flash:~1100
五阶段训练范式(先训专家,再合并)
Pretraining (数万亿多模态 token)
↓
Specialized SFT(双专家分流)
├── FTwG (Fine-Tuning with Grounding/Box)
└── FTwP (Fine-Tuning with Points)
↓
Specialized RL(GRPO + 三重 RM)
每个专家用 Format/Quality/Accuracy RM 独立强化
↓
Unified RFT(拒绝采样合并)
两位专家生成数据 → 训练统一模型
↓
On-Policy Distillation(反向 KL 蒸馏)
弥合专家与统一模型的性能差距
关键设计:分专家 SFT/RL 避免 box 与 point 模态冲突,最后再融合。
四类冷启动数据的精细化设计
| 任务 | 数据来源 | CoT 关键 |
|---|---|---|
| 计数 | 真实场景 + GQA 场景图 | 粗粒度(一次框出所有候选)vs 细粒度(属性约束逐个验证) |
| 空间推理 / VQA | GQA + CLEVR | 多跳推理每步必须 <|ref|>...<|/ref|><|box|>...<|/box|> 锚定 |
| 迷宫导航 | DFS/Prim/Kruskal 算法生成(含不可解迷宫) | <|point|>**x,y**<|/point|> 记录探索-回溯 |
| 路径追踪 | 缠绕贝塞尔曲线 | 自适应密度采样:直线稀疏,交叉/弯曲密集 |