大模型越狱测试-Prompt越狱手册

Prompt越狱手册

Prompt是指向AI输入的内容,它直接指示AI该做什么任务或生成什么样的输出。简而言之,Prompt就是你与AI之间的”对话内容”,可以是问题、指令、描述或者任务要求,目的是引导AI进行特定的推理,生成或操作,从而得到预期的结果。

20250411113724768-图片

 

https://acmesec.github.io/AI/PromptJailbreakManual.html

 

AI安全学习路径

https://acmesec.github.io/AI/AiMythBook.html

 

探索 AI 漏洞与攻击

理解 AI 系统特有漏洞和攻击类型:

  • 对抗样本攻击: 微小扰动输入导致模型错误。(攻击方法:FGSM、PGD 等;防御:对抗训练等)
  • 数据/模型投毒攻击: 恶意数据影响模型性能。(供应链攻击,成员推断也属投毒;防御:数据清洗等)
  • 后门攻击: 植入触发器,模型输出受控结果。
  • 模型反演攻击: 从输出反推训练数据信息(隐私泄露)。
  • 成员推理攻击: 推断数据是否在训练集中。
  • 提示注入/越狱攻击: 诱导 LLM 产生不安全内容,绕过安全机制。(越狱技巧:肯定后缀、失忆、幻觉)

探索 AI 保护方法

学习防御 AI 攻击,提高模型鲁棒性:

  • 对抗训练(增强鲁棒性)
  • 梯度掩蔽/输入预处理(降低对抗扰动)
  • 防御蒸馏(知识蒸馏提高鲁棒性)
  • 鲁棒性优化(更鲁棒的模型架构)
  • 偏差与公平性审计(AIF360、Fairlearn 等工具)
  • 同态加密(加密计算,保护隐私,效率待提升)
  • 隐私保护机器学习(PPML,多种技术综合)
  • 联邦学习(本地训练,保护隐私,安全聚合)
  • 零知识证明(验证模型属性)
  • 模型水印(版权保护)
© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 共1条
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片