大模型应用开发:核心技术与领域实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.1 国外的大模型

国外大模型产业竞争激烈,主要企业包括OpenAI、Meta、Anthropic、Google等。

1.GPT系列

2018年,美国AI研究公司OpenAI提出了第一代GPT模型,将NLP带入“预训练”时代。随后,OpenAI沿着GPT的技术思路,陆续发布了GPT-2、GPT-3、ChatGPT、GPT-4等产品,以及使用GPT-3代码数据进行微调的编程大模型Codex、文生视频模型Sora。

(1)GPT-3

2020年5月,OpenAI发布了GPT-3,它包含1750亿(175B[3])个模型参数,可以通过少量的样本进行学习。和人类一样,GPT-3不需要看完所有样例才能学习,而是看一小部分样例就能学会更多的知识。

GPT-3的体量非常庞大,因此在特定领域任务中进行调优(Fine-Tune)的成本很高。为了解决这个问题,GPT-3使用了语境学习(In-Context Learning,ICL)的方式,在不进行梯度更新或调优的情况下,直接在上下文中进行学习。它通过提供具体任务的“提示”,即便不对模型进行调整也可完成任务。如果在输入中提供一个或几个示例,那么任务完成的效果会更好。

提示:梯度更新是机器学习和深度学习中优化算法的核心组成部分,尤其是在训练神经网络时。在模型的训练过程中,我们定义一个损失函数(或称目标函数、代价函数),这个函数量化了模型预测值与实际值之间的差异。我们的目标是最小化这个损失函数。

梯度是损失函数关于模型参数的偏导数,它指向损失增加最快的方向。因此,负梯度则指向损失减少最快的方向。在训练过程中,我们通过计算损失函数关于每个参数的梯度,然后按照这个梯度的反方向更新参数来逐步减少损失。这个过程称为梯度下降,而每次根据梯度调整参数的过程就是梯度更新。

梯度更新通常遵循这样的公式:

θnew=θold·∇Jθold

其中,θold是旧的参数值,θnew是更新后的参数值,η是学习率(决定了更新步长的大小),∇Jθold)是损失函数J在当前参数值下的梯度。通过反复执行这种梯度更新,模型参数会逐渐调整到使损失函数最小化的最优解附近。

GPT-3不仅在各种NLP任务中具有非常出色的性能,而且在一些需要推理或特殊领域任务中也表现得非常出色。GPT-3也被视为从PLM(预训练语言模型)到大模型发展过程中的一个重要里程碑。

(2)ChatGPT

2022年11月30日,OpenAI发布了基于GPT模型的会话大模型ChatGPT,上线两个月活跃用户数过亿。从技术角度讲,ChatGPT是一个聚焦于对话生成的大模型,它能够根据用户的文本描述,结合历史对话,产生相应的智能回复。ChatGPT在与人类交流方面表现出优越的能力,开启了机器自然语言交互式学习的“类人”新范式。

(3)GPT-4

2023年3月,OpenAI发布的GPT-4将大模型的输入扩展到多模态信息。GPT-4比ChatGPT具有更强的复杂任务解决能力,在许多评估任务上都有很大的性能提高。

值得注意的是,GPT-4在奖励模型上新增了一个安全奖励机制,用来减少有害信息的输出。相比ChatGPT,GPT-4进一步解决了ChatCPT面临的长文本输入、多模态输入、外部实时知识运用等诸多挑战,在复杂认知任务(跨学科语言理解、跨行业知识运用)、复杂推理任务、多模态任务等方面继续进步,进一步抬高了智能涌现的上限,再一次惊艳世人。

GPT-4模型在理解人类语言方面获得了里程碑式的成就。

(4)Codex

Codex是基于GPT-3进行微调的编程大模型,是OpenAI将大模型技术应用于代码领域的重要案例。Codex的训练数据来自GitHub(约为159GB的代码数据)。基于Codex,GitHub与OpenAI合作推出另一个面向市场的代码补全工具Copilot,旨在帮助程序员编写代码。

(5)Sora

2024年2月,OpenAI发布首个文生视频模型Sora,引爆全球。Sora以通用大模型为底座,效果显著超越业界现有视频模型的同类产品,更加体现出通用AI的潜力。Sora和业界视频模型的生成能力比较如表1-1所示。

表1-1 Sora和业界视频模型的生成能力比较

(续)

Sora能够生成分钟级时长的视频,支持单视频多镜头,且能更好地理解提示,如以“生成一段美丽的剪影动画,展现一只狼感到孤独,在月光下嚎叫,直到它找到自己的群体。”为例,生成的动画截图如图1-3所示。该图能够展示出月光、狼,还有孤独的感觉。

图1-3 Sora生成的动画截图

大模型文生视频技术并不是真正的物理世界的模拟器,而是物理3D视觉世界的逼真模拟,存在一些局限性。比如会出现吹不灭的蜡烛、悬空的椅子、人在铁轨上行走等情况,也不足以完全模拟所有现实中的物理过程(比如重力、摩擦力、流体动力学等)。另外,它还存在推理效率的问题,在同等参数量、数据量,训练时间比文生图模型要长2至3个量级。

2.LLaMA系列

2023年,Meta发布开放且高效的大语言模型LLaMA,有7B、13B、33B、65B(650亿)4种版本。

LLaMA的模型性能非常优异,在大多数基准测试上,130亿参数量的LLaMA模型可以胜过GPT-3(参数量达1750亿),而且可以在单块V100 GPU(图形处理器)上运行;而650亿参数量的LLaMA模型可以媲美Google的Chinchilla-70B和PaLM-540B。

LLaMA的训练集来源于公开数据集,无任何定制数据集,保证了其工作与开源兼容和可复现。其中,LLaMA-7B是在1万亿个Token上训练的,而LLaMA-33B和LLaMA-65B是在1.4万亿个Token上训练的。

2023年7月,Meta发布免费的商用开源模型LLaMA 2。LLaMA 2对LLaMA模型进行升级,预训练语料增加了40%,增至2万亿个Token,且训练数据中的文本来源更加多样化。LLaMA 2包括LLaMA 2预训练模型和LLaMA2-chat微调模型,有7B、13B和70B参数量的版本,覆盖了不同应用场景的需求。

其中,LLaMA2-chat微调模型是在超过100万条人工标注的数据下训练而成的。除了训练数据的增加,LLaMA 2的训练过程也有两个值得关注的点:一是扩大了上下文长度,提升了模型的理解能力;二是采用查询注意力机制,提高了模型的推理速度。

其他主流模型还有Anthropic的Claude系列、Google的PaLM系列及Gemini系列,读者可自行了解。