Prompt越狱手册
Prompt是指向AI输入的内容,它直接指示AI该做什么任务或生成什么样的输出。简而言之,Prompt就是你与AI之间的”对话内容”,可以是问题、指令、描述或者任务要求,目的是引导AI进行特定的推理,生成或操作,从而得到预期的结果。
https://acmesec.github.io/AI/PromptJailbreakManual.html
AI安全学习路径
https://acmesec.github.io/AI/AiMythBook.html
探索 AI 漏洞与攻击
理解 AI 系统特有漏洞和攻击类型:
- 对抗样本攻击: 微小扰动输入导致模型错误。(攻击方法:FGSM、PGD 等;防御:对抗训练等)
- 数据/模型投毒攻击: 恶意数据影响模型性能。(供应链攻击,成员推断也属投毒;防御:数据清洗等)
- 后门攻击: 植入触发器,模型输出受控结果。
- 模型反演攻击: 从输出反推训练数据信息(隐私泄露)。
- 成员推理攻击: 推断数据是否在训练集中。
- 提示注入/越狱攻击: 诱导 LLM 产生不安全内容,绕过安全机制。(越狱技巧:肯定后缀、失忆、幻觉)
探索 AI 保护方法
学习防御 AI 攻击,提高模型鲁棒性:
- 对抗训练(增强鲁棒性)
- 梯度掩蔽/输入预处理(降低对抗扰动)
- 防御蒸馏(知识蒸馏提高鲁棒性)
- 鲁棒性优化(更鲁棒的模型架构)
- 偏差与公平性审计(AIF360、Fairlearn 等工具)
- 同态加密(加密计算,保护隐私,效率待提升)
- 隐私保护机器学习(PPML,多种技术综合)
- 联邦学习(本地训练,保护隐私,安全聚合)
- 零知识证明(验证模型属性)
- 模型水印(版权保护)
© 版权声明
文章版权归作者所有,转载请标明出处。
THE END
- 最新
- 最热
只看作者