一本书讲透ChatGPT，实现从理论到实践的跨越！大模型技术工程师必读

程序员如何选择职业赛道？

文章目录

- 程序员如何选择职业赛道？
- - 前言
  - **作者简介**
  - 目录
  - 直播预告

前言

OpenAI 在 2022 年 11 月推出了人工智能聊天应用—ChatGPT。它具有广泛的应用场景，在多项专业和学术基准测试中表现出的智力水平，不仅接近甚至有时超越了人类的平均水平。这使得 ChatGPT 在推出之初就受到广大用户的欢迎，被科技界誉为人工智能领域的新里程碑。

人们在为生成式人工智能所带来的多模态内容创作效率的提升而欢呼时，常常低估ChatGPT的推理能力。这种能力使ChatGPT不仅能作为新一代人机交互的核心，还能作为智能代理来构建自动化和半自动化的工作流程，甚至使它能与工业控制或机器人领域相结合，引发深刻的社会变革。

许多人低估了这种变革的影响力。以当前研发和商业应用的迭代速度来看，预计在未来三至五年内，这种变革将逐渐渗透到人类生活和生产的各个方面，极大地提升现有的生产力。若要追溯上一个被称为“巨大技术变革”的时代，很多人都会毫不犹豫地说是互联网开创期。这次变革也将重塑内容生产相关的商业模式，改变现有的工作方式，甚至推动生产方式的变革。当然，这还需要依赖下一代大语言模型在内容输出的可控性方面的突破。

ChatGPT原理与架构：

大模型的预训练、迁移和中间件编程

程戈著

大模型领域技术专家和布道者实践经验总结

阿里、Google等企业多位大模型技术专家联袂推荐

这是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术，以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型，从实践角度更好地应用大模型，是作者成功训练并部署大模型的过程复盘和经验总结。

第1章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识；
第2~5章深入讲解了Transformer的架构原理，并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进；
第6~8章从底层技术实现的角度讲解了大模型的训练策略、数据处理方法，以及如何利用策略优化和人类反馈来进一步提升模型的表现；
第9~10章首先详细讲解了大模型在垂直领域的低算力迁移方法，并给出了医疗和司法领域的迁移案例，然后讲解了大模型的中间件编程；
第11章对GPT的未来发展趋势进行预测，探讨数据资源、自回归模型的局限性，以及大模型时代具身智能的可行路线。

作者简介

程戈
博士生导师，湘潭大学计算机学院·网络空间安全学院教授，湘潭大学技术转移中心副主任，湘潭市京东智能城市与大数据研究院副院长，智慧司法与数字治理湖南省重点实验室副主任，CCF计算法学会执委。

大模型领域技术专家和布道者，作为两项科技部国家重点研发子课题的负责人，与成都数之联等多家企业合作推动人工智能在司法领域的落地，带领团队开发了JusticeGPT司法大模型，不同于其他的以提升司法领域知识问答能力为核心的司法大模型，该大模型致力于提升司法文献检索增强生成以及司法文档的多跳信息聚合能力，并通过特定的多任务表征与控制指令生成框架重构司法信息化系统的业务中台，实现司法业务编排以及工作流自动化。

连续创业者，先后创立湘潭安道致胜信息科技有限公司等多家企业，曾经作为共同创始人加盟美国WiFi Free llc. ，开发了WiFi Free、WiFi Analyzer” />目录

上拉下滑查看目录 ↓

前言

第1章　人工智能的新里程碑——ChatGPT　/　1

1.1　ChatGPT的发展历程　/　1

1.2　ChatGPT的能力　/　3

1.3　大语言模型的技术演化　/　6

1.3.1　从符号主义到连接主义　/　6

1.3.2　Transformer模型　/　7

1.3.3　无监督预训练　/　10

1.3.4　有监督微调　/　11

1.3.5　人类反馈强化学习　/　11

1.4　大语言模型的技术栈　/　12

1.5　大语言模型带来的影响　/　13

1.6　大语言模型复现的壁垒　/　16

1.6.1　算力瓶颈　/　16

1.6.2　数据瓶颈　/　17

1.6.3　工程瓶颈　/　18

1.7　大语言模型的局限性　/　19

1.8　小结　/　20

第2章　深入理解Transformer模型　/　21

2.1　Transformer模型简介　/　21

2.2　自注意力机制　/　23

2.2.1　自注意力机制的计算过程　/　23

2.2.2　自注意力机制的本质　/　26

2.2.3　自注意力机制的优势与局限性　/　28

2.3　多头注意力机制　/　29

2.3.1　多头注意力机制的实现　/　29

2.3.2　多头注意力机制的作用　/　31

2.3.3　多头注意力机制的优化　/　32

2.4　前馈神经网络　/　33

2.5　残差连接　/　35

2.6　层归一化　/　36

2.7　位置编码　/　38

2.7.1　位置编码的设计与实现　/　38

2.7.2　位置编码的变体　/　40

2.7.3　位置编码的优势与局限性　/　41

2.8　训练与优化　/　41

2.8.1　损失函数　/　41

2.8.2　优化器　/　42

2.8.3　学习率调整策略　/　42

2.8.4　正则化　/　43

2.8.5　其他训练与优化技巧　/　44

2.9　小结　/　46

第3章　生成式预训练　/　47

3.1　生成式预训练简介　/　47

3.2　GPT的模型架构　/　48

3.3　生成式预训练过程　/　50

3.3.1　生成式预训练的目标　/　52

3.3.2　生成式预训练的误差反向传播过程　/　53

3.4　有监督微调　/　55

3.4.1　有监督微调的原理　/　55

3.4.2　有监督微调的特定任务　/　56

3.4.3　有监督微调的步骤　/　58

3.5　小结　/　59

第4章　无监督多任务与零样本学习　/　61

4.1　编码器与解码器　/　61

4.2　GPT-2的模型架构　/　64

4.2.1　层归一化　/　65

4.2.2　正交初始化　/　66

4.2.3　可逆的分词方法　/　67

4.2.4　可学习的相对位置编码　/　71

4.3　无监督多任务　/　72

4.4　多任务学习与零样本学习的关系　/　74

4.5　GPT-2的自回归生成过程　/　76

4.5.1　子词单元嵌入　/　76

4.5.2　自回归过程　/　77

4.6　小结　/　79

第5章　稀疏注意力与基于内容的学习　/　80

5.1　GPT-3的模型架构　/　81

5.2　稀疏注意力模式　/　83

5.2.1　Sparse Transformer的特点　/　83

5.2.2　局部带状注意力　/　85

5.2.3　跨层稀疏连接　/　85

5.3　元学习和基于内容的学习　/　86

5.3.1　元学习　/　87

5.3.2　基于内容的学习　/　87

5.4　概念分布的贝叶斯推断　/　90

5.4.1　隐式微调　/　90

5.4.2　贝叶斯推断　/　93

5.5　思维链的推理能力　/　95

5.6　小结　/　99

第6章　大语言模型的预训练

策略　/　100

6.1　预训练数据集　/　100

6.2　预训练数据的处理　/　102

6.3　分布式训练模式　/　104

6.3.1　数据并行　/　105

6.3.2　模型并行　/　106

6.4　分布式训练的技术路线　/　110

6.4.1　Pathways　/　111

6.4.2　Megatron-LM　/　113

6.4.3　ZeRO　/　116

6.5　训练策略案例　/　120

6.5.1　训练框架　/　120

6.5.2　参数稳定性　/　120

6.5.3　训练设置的调整　/　121

6.5.4　BF16优化　/　121

6.5.5　其他因素　/　122

6.6　小结　/　123

第7章　近端策略优化算法　/　124

7.1　传统的策略梯度方法　/　125

7.1.1　策略梯度方法的基本原理　/　125

7.1.2　重要性采样　/　127

7.1.3　优势函数　/　128

7.2　Actor-Critic算法　/　129

7.2.1　Actor-Critic算法的基本步骤　/　130

7.2.2　值函数与策略更新　/　131

7.2.3　Actor-Critic算法的问题与挑战　/　131

7.3　信任域策略优化算法　/　132

7.3.1　TRPO算法的目标　/　132

7.3.2　TRPO算法的局限性　/　133

7.4　PPO算法的原理　/　134

7.5　小结　/　137

第8章　人类反馈强化学习　/　138

8.1　强化学习在ChatGPT迭代中的作用　/　138

8.2　InstructGPT训练数据集　/　140

8.2.1　微调数据集的来源　/　141

8.2.2　标注标准　/　142

8.2.3　数据分析　/　143

8.3　人类反馈强化学习的训练阶段　/　145

8.3.1　有监督微调阶段　/　145

8.3.2　奖励建模阶段　/　147

8.3.3　强化学习阶段　/　148

8.4　奖励建模算法　/　149

8.4.1　算法思想　/　149

8.4.2　损失函数　/　150

8.5　PPO算法在InstructGPT中的应用　/　151

8.6　多轮对话能力　/　153

8.7　人类反馈强化学习的必要性　/　154

8.8　小结　/　156

第9章　大语言模型的低算力领域迁移　/　157

9.1　指令自举标注　/　157

9.2　人工智能反馈　/　161

9.3　低秩自适应　/　163

9.3.1　模型训练与部署　/　164

9.3.2　秩的选择　/　165

9.4　量化：降低部署的算力要求　/　166

9.5　SparseGPT剪枝算法　/　168

9.6　开源大语言模型的低算力迁移案例　/　170

9.6.1　基座模型　/　170

9.6.2　自举指令微调的羊驼系列　/　171

9.6.3　中文解决方案　/　172

9.6.4　医疗领域的迁移实例　/　174

9.6.5　司法领域的迁移实例　/　175

9.7　小结　/　178

第10章　中间件编程　/　180

10.1　补齐短板—LangChain恰逢

其时　/　180

10.2　多模态融合中间件　/　184

10.2.1　任务规划　/　185

10.2.2　模型选择　/　187

10.2.3　任务执行　/　188

10.2.4　响应生成　/　189

10.3　AutoGPT自主代理与任务

规划　/　189

10.4　中间件框架的竞品　/　192

10.5　小结　/　194

第11章　大语言模型的未来

之路　/　195

11.1　强人工智能之路　/　195

11.2　数据资源枯竭　/　198

11.3　自回归模型的局限性　/　200

11.4　具身智能　/　202

11.4.1　具身智能的挑战　/　203

11.4.2　PaLM-E　/　204

11.4.3　ChatGPT for Robotics　/　205

11.5　小结　/　210

直播预告

3月7日周四19：00，大模型领域技术专家，湖南国家应用数学中心副主任，湘潭市京东智能城市与大数据研究院副院长，湘潭大学计算机学院.网络空间学院教授程戈老师与您分享“世界模型改变世界：从GPT到Sora”，点击预约观看！

一本书讲透ChatGPT，实现从理论到实践的跨越！大模型技术工程师必读

程序员如何选择职业赛道？

文章目录

前言

作者简介

直播预告

最新关注

热文推荐

聊聊后端Web开发框架（Python）的简单使用

CRM项目前端实现删除修改线索备注的逻辑和对应效果——CRM项目

C++ 邮件槽ShellCode跨进程传输

23年，我又学习了一次amd模块化，模块化思想

万字长文：Stable Diffusion 保姆级教程

【数据库一】MySQL数据库初体验

一本书讲透ChatGPT，实现从理论到实践的跨越！大模型技术工程师必读

程序员如何选择职业赛道？

文章目录

前言

作者简介

直播预告

相关文章

最新关注

热文推荐