Adversarial AI 对抗性人工智能
操纵人工智能(AI)和机器学习(ML)系统让攻击更高效的技术。包括两个方向:用 AI 攻击别人,以及攻击别人的 AI。
1. 用 AI 增强攻击
- AI 生成钓鱼内容 —— GPT 类模型写极其逼真的 钓鱼 邮件,无语法错
- Deepfake 语音/视频 —— 克隆 CEO 声音骗财务转账(已有真实案例)
- AI 探测漏洞 —— 自动化扫描 + 利用,加速攻击周期
- AI 撞库 —— 学密码生成规律,优化暴力破解
- 多语言无障碍 —— AI 翻译让攻击者跨国行动
2. 攻击 AI 系统本身
- 对抗样本(Adversarial Examples) —— 给图片加肉眼看不见的扰动,让 AI 识别错(熊猫识别成长臂猿)
- 数据投毒(Data Poisoning) —— 污染训练数据,让模型学错
- 模型窃取 —— 通过 API 查询反推模型参数
- Prompt Injection —— 给 LLM 喂引诱性输入,绕过安全限制
- 模型逆向 —— 从模型输出推测训练数据(隐私泄露)
为什么是新兴威胁
- 攻击和防御都在升级,军备竞赛
- AI 系统被越来越多关键场景采用(医疗、金融、自动驾驶) → 攻击面巨大
- 防御 AI 还不成熟,工业界标准刚开始形成
防御方向:对抗训练、输入验证、模型水印、AI 红队、OWASP Top 10 for LLM Applications 这类新框架。