大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

返回论文和资料目录

论文地址
项目地址

1.导读

讲得通俗易懂,且格局拉满!基本覆盖了自ChatGPT以来的AI比较火的事件,还多次提到强人工智能AGI(人工通用智能)。对近几年的大型语言模型( Large Language Models)进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读!!!

2.摘要和引言

从图灵测试开始讲起,人类一直在探索用机器掌握语言智能的方法。

在过去20年,语言模型得到了广泛研究。从统计语言模型到了基于神经网络的语言模型(LSTM等)。

最近这些年,通过在大规模语料库(数据集)上对Transformer模型的预训练,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面显示出了很强的能力。

近一两年(从20年的GPT-3开始),发现当参数尺度超过一定水平时,这些扩展的语言模型不仅实现了显著的性能提高,而且还表现出一些小规模语言模型(如BERT)中不存在的特殊能力(如上下文学习)。为了区分不同参数尺度下的语言模型,研究界创造了术语大型语言模型(LLM),用于描述具有显著规模的PLM(例如,包含数百亿或数千亿个参数)的PLM。

近半年来,ChatGPT(基于LLM开发的强大的人工智能聊天机器人)的推出,引起了社会的广泛关注。

总的来说,语言模型LM经过了如下4个阶段:

  1. STM(统计语言模型):例如基于马尔科夫链预测下个词。
  2. NLM(神经语言模型/基于神经网络的语言模型):例如RNN、LSTM等。
  3. PLM(预训练语言模型):例如GPT-1,GPT-2,Bert等。与NLM的不同是,将语言模型做成了“一劳永逸”的形式,即一个模型可以做很多事,只要训练了一个模型后,不需要下游任务进行复杂的微调。其中GPT-2将模型做成了Zero-shot的形式大大加强了预训练语言模型的性能。
  4. LLM(大型语言模型):GPT-3,PALM、ChatGPT、LLaMA、GPT-4等。与PLM最直观的不同是模型大了,训练数据多了。

作者在这给出了LLM出现后的3个情况:

  1. LLM涌现出PLM中未出现的性能。LLM更大GPT-3是第一个将模型大小扩展到千亿参数的模型,其涌现出模型较小时未出现的智能。现在的ChatGPT也是。
  2. 已有都是人来选择使用的LM模型来解决具体的任务,现在是人告诉LLM要干嘛,然后LLM根据要求解决问题。
  3. 出现了工业界和学业界的划分。以前都基本是学业界引导AI发展,现在出现工业界引导的情况。因为LLM需要大量的资金基础,所以最早的突破来自OpenAI,而非高校。

作者提到了LLM与AGI的联系

OpenAI给出了关于实现AGI的计划。

最近一些研究《Sparks of Artificial General Intelligence: Early experiments with GPT-4》也认为GPT-4已经具备了一定的AGI能力。

作者给出了关于LLM相关文献的回顾,并在github上创建了一个项目

3.回顾

背景

已有的LLM仍然基于Transformer结构。

LLM涌现出的能力

  • 上下文理解
  • 跟随指令
  • 一步一步推理

LLM的关键技术

  • 规模:考虑固定模型规模和数据集规模,如何提升模型性能
  • 训练:如何降低训练成本
  • 能力引出:如何引导出模型已经具备的能力
  • 调优:减少有害的输出
  • 工具使用:例如使用计算器帮助LLM提升计算能力

LLM模型发展脉络

LLM模型汇总

其他方面LLM模型作者写的还没有这篇公众号清楚。

不过作者在github上给出了很多相关论文地址。

数据集

模型使用的数据集分布

数据处理流程

模型结构

优化设置

4.模型调优

构建指令数流程

指令数据集

RLHF算法(InstructGPT使用的方法)

5.评估

未完待续