马东锡NLP:2025年度最喜欢的LLM论文集(13个方向)
Summary
马东锡 NLP 精选2025年度 LLM 论文集,覆盖13个方向:Test Time Scaling(DeepSeek-R1)、Efficient Reasoning、Reasoning Analysis、CLI Agent(SWE-agent)、LLM×RL Agentic("协议token")、Parallel Reasoning、RLVR(Absolute Zero)、Agent/Deep Research(WebThinker/Sleep-time Compute)、Risk Modeling、Multi-Agentic、Sentient Agent、LLM Security(Emergent Misalignment)、Model Steering(AxBench/Persona Vectors)。
Key Concepts
- LLM Paper Collection — 年度精选论文合集
- Test Time Scaling — 推理时计算扩展(DeepSeek-R1, s1)
- RLVR — 可验证奖励的强化学习
- Parallel Reasoning — 并行推理突破单线程限制
- Model Steering — LLM 行为控制与引导
- Emergent Misalignment — 窄微调导致广泛错位
Related Topics
- Reasoning Models
- Agent Architecture
- AI Safety
- Chain of Thought