一分钟秒懂人工智能对齐 ( 文末送书 )

人工智能对齐

什么是人工智能对齐
为什么要研究人工智能对齐
人工智能对齐的常见方法
延伸阅读
写在末尾：

送书系列：

送书第一期：考研必备书单
送书第二期：CTF那些事儿
送书第三期：数据要素安全流通
送书第四期：MLOps工程实践：工具、技术与企业级应用
送书第五期：Python数据挖掘：入门进阶与实用案例分析
送书第六期：ChatGPT 驱动软件开发：AI 在软件研发全流程中的革新与实践
送书第七期：数据相关书单自选

主页传送门：传送

正文开始之前先来一个小插曲：
前些天发现了一个巨牛的人工智能学习网站，内容通俗易懂，文章风趣幽默，对于学习人工智能很有帮助，忍不住在这里分享给大家。点击人工智能即可跳转学习，希望可以给仍在迷茫于如何学习人工智能的你一点小小的帮助。

什么是人工智能对齐

人工智能对齐（AI Alignment）指让人工智能的行为符合人的意图和价值观。

人工智能系统可能会出现“不对齐”（misalign）的问题。以ChatGPT这样的问答系统为例，ChatGPT的回答可能会含有危害祖国统一、侮辱先烈、丑化中华民族、教唆暴力、出口成“脏”等违法或不符合社会主义核心价值观的言论，也可能会出现阿谀奉承、威逼利诱、信口雌黄等干预用户达到预定目标的情况。消除人工智能系统不对齐的过程就称为人工智能对齐。

图 ChatGPT的不对齐行为

为什么要研究人工智能对齐

根据人工智能对齐的定义，所有的人工智能问题（包括AI伦理、AI治理、可解释性AI，甚至是最基本的回归和分类问题）都可以算是人工智能对齐问题。那么为什么学术界还要发明“人工智能对齐”这个新概念？研究“人工智能对齐”这个新概念有什么价值呢？

事实上，人工智能对齐这一概念和ChatGPT这样的通用大模型的诞生密不可分。对于通用大模型而言，一个模型可以同时完成多种任务，而且不同的任务有着不同的期望：有的任务希望能够更有想象力，有的任务希望能够更尊重事实；有的任务希望能够理性客观，有的任务希望能有细腻丰富的情感。任务的多样性导致了需要对大模型进行全方面的对齐，而不仅仅是就某些方面进行对齐。传统的研究往往针对某个方面进行对齐，对于ChatGPT这样的通用模型会导致“按下葫芦浮起瓢”，无法面面俱到。

随着机器学习模型规模的不断变大以及神经网络的大量应用，人类已经无法完全理解和解释人工智能的某些行为。例如，用于围棋AlphaGo下的某些棋迄今也不能被人类所完全理解。在未来，有可能会出现全方面碾压人类的人工智能（比如《流浪地球》里的MOSS）。传统的对齐方法显然不能满足对这样的人工智能的对齐需求。

人工智能对齐的常见方法

人工智能对齐离不开人的接入。人对人工智能系统进行评估和反馈，可以确认人工智能中不对齐的情况，并指导其进行改进。

人工智能对齐的方法包括模仿学习和人类反馈强化学习。ChatGPT就采用了这些对齐方法。

ChatGPT训练步骤

（图片来源：https://openai.com/blog/chatgpt）

上图是ChatGPT的训练步骤图。步骤一利用收集到的数据进行监督学习，这一部分就是在用模仿学习进行人工智能对齐。不过，ChatGPT的训练团队认为，仅仅用模仿学习并不能完全达到要求。

模仿学习不能完全满足对齐需求的原因可能如下：模仿学习使用的数据集能覆盖到的数据范围是有限的，不可能包括所有的情况。用这样数据集训练出来的人工智能难免有些边脚情形的表现不对齐。另外，虽然训练后能够让训练目标基本上达到最优，但是在训练目标最优情况下还是会出现在某些样本点上表现不好的情况。而这些样本点也许还挺重要，这些不好的样本点可能会涉及到重大的法律或是舆论风险。

为此，ChatGPT的训练过程进一步地使用了人类反馈强化学习。步骤图中的第二步和第三步就用到了人类反馈强化学习。

第二步通过人类的反馈构建奖励模型。在这一步中，提供反馈的人可以就其认为需要重点关注的问题进行着重考察，来确保在哪些重要的问题上奖励模型是正确的。并且在后续的测试中如果发现了之前没有预料到的新问题，还可以通过提供更多反馈样本来为奖励模型打上补丁。这样，通过人工干预、不断迭代反馈，奖励模型就趋于完善。这样，就让奖励模型的人类的期望对齐。

在利用反馈进行奖励模型对齐的训练过程中，对于每个样本，先由语言模型输出几个备选的回答，然后再由人类对这些回答进行排序。这样的做法与直接让用户提供参考答案相比，更能够激发语言模型本身的创造力，也能使得反馈更快更省钱。

第三步利用奖励模型进行强化学习。步骤中提到的PPO算法就是一种强化学习算法。通过使用强化学习算法，使得系统的行为和奖励模型对齐。

基于反馈的强化学习在ChatGPT等大模型上的成功应用使得该算法称为最受关注的大模型对齐算法。目前绝大多数的大模型都采用了这个技术进行对齐。

写在末尾：

根据博客阅读量本次活动一共赠书若干本，评论区抽取若干位小伙伴送出，中奖了会私信通知
参与方式：关注博主、点赞、收藏 + 评论
（任意评论不折叠即可，切记要点赞+收藏，否则抽奖无效，每个人最多评论三次）

如果喜欢的话，欢迎 关注 点赞 评论 收藏一起讨论你的支持就是我✍️创作的动力！

一分钟秒懂人工智能对齐 ( 文末送书 )

人工智能对齐

什么是人工智能对齐

为什么要研究人工智能对齐

人工智能对齐的常见方法

延伸阅读

写在末尾：

最新关注

热文推荐

3.Vue3.0 有什么更新

Vue项目如何配置、切换主题颜色（mixin + scss方式，简单高效）

截图工具，QQ截图独立版，可以脱离QQ使用的QQ截图小工具，有人把QQ截图功能单独拆出来了，真的很好用！

公网WebSocket Client远程连接本地WebSocket Server【内网穿透】

Nginx网络服务

机器学习系列 – Mean Shift聚类

一分钟秒懂人工智能对齐 ( 文末送书 )

人工智能对齐

什么是人工智能对齐

为什么要研究人工智能对齐

人工智能对齐的常见方法

延伸阅读

写在末尾：

相关文章

最新关注

热文推荐