
2.5 自然语言处理
自然语言处理(NLP)主要研究计算机和人类(自然)语言之间的交互作用。
1.什么是自然语言处理
自然语言处理是计算机科学、人工智能和语言学交叉的一个领域,其目标是计算机处理或“理解”自然语言,执行语言翻译和问答任务。
随着语音接口和聊天机器人的兴起,NLP是信息时代最重要的技术之一,也是人工智能的重要组成部分。由于人类语言的复杂性,机器很难完全理解和表达语言。从这个研究领域衍生出的一个快速增长的应用程序集合包括拼写检查、关键字搜索、同义词查找、机器翻译、语音对话系统和复杂问题回答。
2.自然语言处理技术
(1)文本嵌入技术
在传统的自然语言处理中,我们把单词当作离散的符号,用向量表示。单词作为离散符号的问题在于向量本身没有自然的相似性。因此,另一种方法是学习编码向量本身的相似性。其核心思想是,一个词的意义是在它经常出现的语境中给出的。文本嵌入是字符串的实值向量表示,每个单词构建一个密集的向量并选择它,使其出现在类似上下文中的单词向量。文本嵌入被认为是大多数深度NLP任务的良好起点,它使深度学习在更小的数据集上有效,因为文本嵌入通常是深度学习架构的第一个输入,并且是NLP中最流行的迁移学习形式。在文本中嵌入最流行的名称是Word2vec,由谷歌和斯坦福大学开发。
(2)文本翻译技术
文本翻译是一项经典的语言理解测试,它包括语言分析和语言生成。神经机器翻译是一种通过大型人工神经网络对整个过程进行建模的方法。神经元不仅提供来自上层的信息,还提供来自过去的信息。这意味着我们喂养和训练网络的顺序很重要:先喂它A,然后再喂它B,再喂它B,再喂它A,可能会产生不同的结果。
(3)情绪分析技术
人与人之间的沟通不仅仅是文字和它们的明确含义。即使是在完全基于文本的对话中,你也可以通过单词的选择和标点符号来判断客户是否生气。为了让计算机真正理解人类日常交流的方式,它们不仅需要理解词语的客观定义,还需要理解我们的情感。情感分析是通过小元素的语义组合来解释大文本单位(实体、描述性术语、事实、论据、故事)意义的过程。现代情感分析的深度学习方法有形态学、语法和逻辑语义,其中最有效的是递归神经网络。递归有助于消除歧义,帮助某些任务引用特定的短语,对于使用语法树结构的任务非常有效。
3.自然语言处理的应用
(1)机器翻译
机器翻译是指运用机器通过特定的计算机程序将一种书写形式或声音形式的自然语言,翻译成另一种形式的过程。目前谷歌、微软与国内的百度、有道等公司都为用户提供了免费的在线多语言翻译系统。速度快、成本低是文本翻译的主要特点,而且应用广泛,不同行业都可以采用相应的专业翻译。语音翻译是目前机器翻译中比较富有创新意识的领域,搜狗推出的机器同传技术主要在会议场景出现,演讲者的语音实时转换成文本,并且进行同步翻译,低延迟显示翻译结果,希望能够取代人工同传,实现不同语言的人们低成本的有效交流。
(2)信息检索
信息检索是从相关文档集合中发现用户需要的信息的过程。在搜索引擎中,用户将简单的关键字作为查询提交给搜索引擎,以实现向用户提供可能的搜索目标页面列表。
(3)自动问答
自动问答是指利用计算机自动回答用户的问题,以满足用户的知识需求。根据不同的目标数据源,问答技术可以分为三类:检索问答、社区问答和知识库问答。检索问答和社区问答的核心是浅层语义分析和关键词匹配,知识库问答是为了实现知识的深层逻辑推理。