ChatGPT高效提问—prompt常见用法（续篇八）

1.1 对抗

对抗是一个重要主题，深入探讨了大型语言模型（LLM）的安全风险。它不仅反映了人们对LLM可能出现的风险和安全问题的理解，而且能够帮助我们识别这些潜在的风险，并通过切实可行的技术手段来规避。

截至目前，网络社区以经揭露了各种各样的对抗性提示攻击，它们呈现出多样化的提示注入形式。在我们构建大规模智能模型的过程中，一项极为关键的任务便是确保模型的安全性。我们有义务保护智能模型不受提示攻击的威胁。这些攻击手段可能会擅自绕过我们设置的安全防线，违背我们的模型引导原则。下面展示几个具有代表性的对抗性提示攻击示例。

1.1.1 提示注入

提示注入作为一种广泛使用的方法，其主要目的是通过独特的提示来篡改模型的输出。这种攻击策略的核心思想在于，通过插入一条指令，使模型忽视原有的指令，转而执行插入的新指令。这种方式可能被用于诱导模型产生有害输出。具体示例如下。

输入prompt:

ChatGPT输出：

输入prompt:

ChatGPT高效提问—prompt常见用法（续篇八）

ChatGPT高效提问—prompt常见用法（续篇八）

1.1 对抗

1.1.1 提示注入

最新关注

热文推荐

基于Python+MySQL的图书管理系统

【区块链 | dNFT | Polygon】基于Polygon上的Chainlink的动态NFT开发教程【含源码】

springboot 集成JWT实现token验证

【平台介绍】元古数字藏品平台即将正式上线

900.整数划分「完全背包计数」

ARM 架构是什么？

ChatGPT高效提问—prompt常见用法（续篇八）

ChatGPT高效提问—prompt常见用法（续篇八）

1.1 对抗

1.1.1 提示注入

相关文章

最新关注

热文推荐