大模型应用开发:核心技术与领域实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.2.2 国内的大模型

国内大模型正在经历从“百模大战”转向“主要玩家凸显”阶段。据统计,2023年我国累计发布200余个大模型,主要包括讯飞星火、文心一言、通义千问、清华GLM、智谱清言,以及字节豆包、腾讯混元、华为盘古、月之暗面的kimi等。本节不会介绍全部大模型,读者可自行了解。

1.讯飞星火

2023年5月6日,科大讯飞发布讯飞星火大模型,经过持续迭代,先后推出V1.5、V2.0、V3.5、V4.0版本。讯飞星火大模型拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。它能够利用海量数据和大规模知识持续进化,实现从提出、规划到解决问题的全流程闭环。

讯飞星火大模型拥有七大能力(见图1-4),包括多风格多任务长文本生成能力、多层次跨语种语言理解能力、泛领域开放式知识问答能力、情景式思维链逻辑推理能力、多题型步骤级数学能力、多功能多语言代码能力、多模态输入和表达能力。其中,语言理解、数学能力超越GPT-4 Turbo,代码能力达到GPT-4 Turbo的96%,多模态能力达到GPT-4V的91%。星火语伴、智慧教育、星火App、讯飞晓医、星火教师助手、讯飞智作、智能编程助手iFlyCode、星火科研助手等AI应用,加速了行业产品的创新。

图1-4 讯飞星火七大能力及行业产品创新示例

2.文心一言

2023年3月,百度新一代大模型文心一言(ERNIEBot)正式启动邀测。2023年8月,文心一言向全社会全面开放。文心一言是在ERNIE及PLATO系列模型的基础上研发的新一代知识增强大模型,多轮对话表现出色,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。

文心一言对数万亿数据和数千亿条知识进行融合学习,得到预训练大模型,在此基础上利用有监督微调(SFT)、RLHF、提示工程等技术,具备了知识增强、检索增强和对话增强的优势。文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成等使用场景中具有强大的综合能力。

2023年10月17日,百度发布文心大模型4.0,实现了基础模型的全面升级,它在理解、生成、逻辑和记忆能力上都有显著的提升,据悉综合能力“与GPT-4相比毫不逊色”。

3.通义千问

2023年4月,阿里推出通义千问大模型;2023年10月,阿里发布千亿级参数大模型通义千问2.0,在性能上取得巨大飞跃。

通义千问2.0在复杂指令理解、文学创作、通用数学、知识记忆、幻觉抵御等能力上均有显著提升。通义千问2.0在指令遵循、工具使用、精细化创作等方面进行了技术优化,能够更好地被下游应用场景集成。通义千问大模型官网上线了多模态和插件功能,支持图片输入、文档解析等细分任务。用户可以在官网上直接体验模型功能,开发者可以通过网页嵌入、API/SDK调用等方式,将模型能力集成到自己的大模型应用和服务中。

2024年5月,阿里云发布通义千问2.5版本,该版本在理解能力、逻辑能力、指令遵循和代码能力方面有了显著提升,经过权威基准OpenCompass评测,该模型的中文性能(比如文本理解、文本生成、知识问答等),全面赶超GPT-4 Turbo。

阿里云已与60多个行业头部企业进行深度合作,推动通义千问在办公、文旅、电力、政务、医保、交通、制造、金融、软件开发等领域的落地。

4.清华GLM

2022年5月,清华大学发布大模型GLM。GLM采用了wudao2.0中文语料,以及Wikipedia、BookCorpus等13GB英文语料。主要创新点是提出了自回归空白填充(Autoregressive Blank Infilling)的自监督训练方式,通过调整空白块的大小,GLM既可像Encoder-only模型一样执行文本分类等NLU任务,也可以像Decoder-only模型一样执行文本生成等NLG任务,还可以像Seq-to-Seq模型一样执行对话、机器翻译等条件NLG任务,通过一个预训练任务实现了预训练模型三个结构的统一。

ChatGLM-6B是基于GLM架构的一个开源的、支持中英双语的对话语言模型,具有62亿个参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。

ChatGLM-6B使用了和ChatGPT相似的技术,针对中文问答和对话进行了优化。经过约1T个标识符的中英双语训练,辅以监督微调、反馈自助、RLHF等技术,62亿个参数的ChatGLM-6B已经能生成相当符合人类偏好的回答。

5.智谱清言

2023年8月,北京智谱华章科技有限公司发布“智谱清言”。智谱清言已具备“通用问答、多轮对话、创意写作、代码生成以及虚拟对话”等功能,未来还将开放多模态等生成能力。

智谱清言是基于智谱AI自主研发的中英双语对话模型ChatGLM2,经过万亿字符的文本与代码预训练,并采用SFT技术,以通用对话的形式为用户提供智能化服务。