![大模型应用开发:核心技术与领域实践](https://wfqqreader-1252317822.image.myqcloud.com/cover/622/53287622/b_53287622.jpg)
1.2.1 国外的大模型
国外大模型产业竞争激烈,主要企业包括OpenAI、Meta、Anthropic、Google等。
1.GPT系列
2018年,美国AI研究公司OpenAI提出了第一代GPT模型,将NLP带入“预训练”时代。随后,OpenAI沿着GPT的技术思路,陆续发布了GPT-2、GPT-3、ChatGPT、GPT-4等产品,以及使用GPT-3代码数据进行微调的编程大模型Codex、文生视频模型Sora。
(1)GPT-3
2020年5月,OpenAI发布了GPT-3,它包含1750亿(175B[3])个模型参数,可以通过少量的样本进行学习。和人类一样,GPT-3不需要看完所有样例才能学习,而是看一小部分样例就能学会更多的知识。
GPT-3的体量非常庞大,因此在特定领域任务中进行调优(Fine-Tune)的成本很高。为了解决这个问题,GPT-3使用了语境学习(In-Context Learning,ICL)的方式,在不进行梯度更新或调优的情况下,直接在上下文中进行学习。它通过提供具体任务的“提示”,即便不对模型进行调整也可完成任务。如果在输入中提供一个或几个示例,那么任务完成的效果会更好。
提示:梯度更新是机器学习和深度学习中优化算法的核心组成部分,尤其是在训练神经网络时。在模型的训练过程中,我们定义一个损失函数(或称目标函数、代价函数),这个函数量化了模型预测值与实际值之间的差异。我们的目标是最小化这个损失函数。
梯度是损失函数关于模型参数的偏导数,它指向损失增加最快的方向。因此,负梯度则指向损失减少最快的方向。在训练过程中,我们通过计算损失函数关于每个参数的梯度,然后按照这个梯度的反方向更新参数来逐步减少损失。这个过程称为梯度下降,而每次根据梯度调整参数的过程就是梯度更新。
梯度更新通常遵循这样的公式:
θnew=θold-η·∇J(θold)
其中,θold是旧的参数值,θnew是更新后的参数值,η是学习率(决定了更新步长的大小),∇J(θold)是损失函数J在当前参数值下的梯度。通过反复执行这种梯度更新,模型参数会逐渐调整到使损失函数最小化的最优解附近。
GPT-3不仅在各种NLP任务中具有非常出色的性能,而且在一些需要推理或特殊领域任务中也表现得非常出色。GPT-3也被视为从PLM(预训练语言模型)到大模型发展过程中的一个重要里程碑。
(2)ChatGPT
2022年11月30日,OpenAI发布了基于GPT模型的会话大模型ChatGPT,上线两个月活跃用户数过亿。从技术角度讲,ChatGPT是一个聚焦于对话生成的大模型,它能够根据用户的文本描述,结合历史对话,产生相应的智能回复。ChatGPT在与人类交流方面表现出优越的能力,开启了机器自然语言交互式学习的“类人”新范式。
(3)GPT-4
2023年3月,OpenAI发布的GPT-4将大模型的输入扩展到多模态信息。GPT-4比ChatGPT具有更强的复杂任务解决能力,在许多评估任务上都有很大的性能提高。
值得注意的是,GPT-4在奖励模型上新增了一个安全奖励机制,用来减少有害信息的输出。相比ChatGPT,GPT-4进一步解决了ChatCPT面临的长文本输入、多模态输入、外部实时知识运用等诸多挑战,在复杂认知任务(跨学科语言理解、跨行业知识运用)、复杂推理任务、多模态任务等方面继续进步,进一步抬高了智能涌现的上限,再一次惊艳世人。
GPT-4模型在理解人类语言方面获得了里程碑式的成就。
(4)Codex
Codex是基于GPT-3进行微调的编程大模型,是OpenAI将大模型技术应用于代码领域的重要案例。Codex的训练数据来自GitHub(约为159GB的代码数据)。基于Codex,GitHub与OpenAI合作推出另一个面向市场的代码补全工具Copilot,旨在帮助程序员编写代码。
(5)Sora
2024年2月,OpenAI发布首个文生视频模型Sora,引爆全球。Sora以通用大模型为底座,效果显著超越业界现有视频模型的同类产品,更加体现出通用AI的潜力。Sora和业界视频模型的生成能力比较如表1-1所示。
表1-1 Sora和业界视频模型的生成能力比较
![](https://epubservercos.yuewen.com/AA7DC3/31751972303748406/epubprivate/OEBPS/Images/16_01.jpg?sign=1739343852-dYu3ca7YUtDONJvFYNijoG1aXwVYYaji-0-da7f352136aa5e80c20594a2f09dc9ea)
(续)
![](https://epubservercos.yuewen.com/AA7DC3/31751972303748406/epubprivate/OEBPS/Images/17_01.jpg?sign=1739343852-VurKs7dikBo9gAk2n88KdI4vu2Y4Wx6c-0-2bb6232e7ace3517266c5d2ab0dbae50)
Sora能够生成分钟级时长的视频,支持单视频多镜头,且能更好地理解提示,如以“生成一段美丽的剪影动画,展现一只狼感到孤独,在月光下嚎叫,直到它找到自己的群体。”为例,生成的动画截图如图1-3所示。该图能够展示出月光、狼,还有孤独的感觉。
![](https://epubservercos.yuewen.com/AA7DC3/31751972303748406/epubprivate/OEBPS/Images/17_02.jpg?sign=1739343852-Bw8oQaUbfNAUeDpzymSnjYwIupjgxAQR-0-c5106377667400de378e74edfc534979)
图1-3 Sora生成的动画截图
大模型文生视频技术并不是真正的物理世界的模拟器,而是物理3D视觉世界的逼真模拟,存在一些局限性。比如会出现吹不灭的蜡烛、悬空的椅子、人在铁轨上行走等情况,也不足以完全模拟所有现实中的物理过程(比如重力、摩擦力、流体动力学等)。另外,它还存在推理效率的问题,在同等参数量、数据量,训练时间比文生图模型要长2至3个量级。
2.LLaMA系列
2023年,Meta发布开放且高效的大语言模型LLaMA,有7B、13B、33B、65B(650亿)4种版本。
LLaMA的模型性能非常优异,在大多数基准测试上,130亿参数量的LLaMA模型可以胜过GPT-3(参数量达1750亿),而且可以在单块V100 GPU(图形处理器)上运行;而650亿参数量的LLaMA模型可以媲美Google的Chinchilla-70B和PaLM-540B。
LLaMA的训练集来源于公开数据集,无任何定制数据集,保证了其工作与开源兼容和可复现。其中,LLaMA-7B是在1万亿个Token上训练的,而LLaMA-33B和LLaMA-65B是在1.4万亿个Token上训练的。
2023年7月,Meta发布免费的商用开源模型LLaMA 2。LLaMA 2对LLaMA模型进行升级,预训练语料增加了40%,增至2万亿个Token,且训练数据中的文本来源更加多样化。LLaMA 2包括LLaMA 2预训练模型和LLaMA2-chat微调模型,有7B、13B和70B参数量的版本,覆盖了不同应用场景的需求。
其中,LLaMA2-chat微调模型是在超过100万条人工标注的数据下训练而成的。除了训练数据的增加,LLaMA 2的训练过程也有两个值得关注的点:一是扩大了上下文长度,提升了模型的理解能力;二是采用查询注意力机制,提高了模型的推理速度。
其他主流模型还有Anthropic的Claude系列、Google的PaLM系列及Gemini系列,读者可自行了解。