跳到主要内容

AI/ML安全渗透测试路线图(2026版)

Summary

这份 2026 版 AI/ML 安全渗透测试路线图涵盖从入门到实战的 7 个学习阶段。核心攻击面包括 Prompt Injection(直接与间接)、Jailbreaking(多轮攻击成功率达 92%)、工具投毒、模型反转、RAG Poisoning 等。重点关注 MCP Security(工具投毒、工具影子、资源窃取、跨 MCP 污染)和 AI IDE 安全漏洞(GitHub Copilot RCE、Cursor 间接注入等 30+ CVE)。Meta 提出的 Rule of Two 框架指出 Agent 最多满足处理不可信输入、访问敏感数据、改变外部状态三者中的两项。Prompt Injection 被定义为结构性安全挑战,而非可用过滤器解决的问题。

Key Concepts

  • Prompt Injection - LLM 的结构性安全挑战,直接与间接两种形式
  • MCP Security - MCP 协议特定攻击面(工具投毒、工具影子、资源窃取)
  • OWASP LLM Top 10 - LLM 安全核心框架(2025版)
  • Jailbreaking - 多轮攻击成功率达 92%
  • RAG Poisoning - 检索增强生成的投毒攻击
  • Rule of Two - Meta 的 Agent 安全框架
  • AI IDE Security - AI IDE 中 30+ CVE 漏洞
  • MITRE ATLAS - AI 攻击技术知识库

Detailed Content

7 个学习阶段

Phase 1 基础知识:Andrew Ng ML 课程、fast.ai、Google ML Crash Course、Karpathy LLM 讲座。

Phase 2 安全概念:核心框架 OWASP LLM Top 10MITRE ATLAS、NIST AI RMF。攻击面涵盖 Prompt InjectionJailbreaking、工具投毒、模型反转、数据投毒、对抗样本、供应链攻击、RAG Poisoning、Agent 间攻击。

Phase 3 Prompt Injection 与 LLM 攻击:DAN 框架、角色扮演操纵、Token 走私。78 项研究的 Meta 分析显示 >85% 的攻击可绕过防御。

Phase 4 Agentic AI 与 MCP Security(重点):MCP 特定攻击包括工具投毒(恶意描述)、工具影子(名称冲突)、资源窃取、对话劫持、跨 MCP 污染。AI IDE Security 方面:CVE-2025-53773(GitHub Copilot RCE, CVSS 9.6)、CVE-2025-54135(Cursor 间接注入 -> RCE)、IDEsaster(30+ CVE)。36% 的 Agent Skills 含恶意载荷(Snyk ToxicSkills)。Rule of Two:Agent 最多满足 (A)处理不可信输入、(B)访问敏感数据、(C)改变外部状态 中的两项。

Phase 5 实战练习:Gandalf、PromptTrace、Damn Vulnerable LLM Agent、PortSwigger LLM Labs。

Phase 6 高级利用:Agent 集成 RCE、数据泄露链、账户接管。

Phase 7 真实世界研究与 Bug Bounty

  • Model Context Protocol
  • Agent Workflow
  • Prompt Engineering
  • AI Agent
  • Skills