组成
自然语言处理分为自然语言理解(NLU)、自然语言转换(NLT)、自然语言生成(NLG)
自然语言理解
-
情感分析:对给定的文本输入,在给定的选项范围内分析文本的情绪是正面还是负面;
-
文本分类:对给定的文本输入,在给定的选项范围内对文本进行二分类或多分类;
-
意图识别:对给定的文本输入,在给定的选项范围内对文本的意图进行识别归类;
-
抽取式阅读理解:对给定的文本输入,用文本中的内容回答问题;
-
语义匹配:对给定的两个文本输入,判断是否相似;
-
自然语言推理:对给定的两个文本输入,判断是蕴涵、矛盾还是无关;
-
命名实体识别:对给定的文本输入,返回含有命名实体及其对应标签的映射,例如{'苹果':'水果'};
-
文本摘要:对给定的文本输入,用文本中的内容对文本进行摘要。
适合仅编码器式的(encoder-only),例如BERT(Bidirectional Encoder Representation of Transformer),它们是对自然语言理解深刻的“评论家”
自然语言转换
-
机器翻译:将一种自然语言转换为另一种自然语言,包括从源语言到目标语言的文本或语音的转换;
-
非抽取式阅读理解:接受给定文本的输入,能够理解自然语言问题,并回答问题;
-
文本风格转换:将文本从一种风格转换为另一种风格,如将正式文本转换为非正式文本;
-
语音识别:将人类的语音转换为文本,用于语音指令、口述文本、会议记录等。
-
意图改写:对给定的文本输入,将原始文本中的意图或核心信息重新表述,以不同的词汇和句式表达相同的意思,同时保持原意的准确性和完整性;
NLT任务适合编码器-解码器式的(encoder-decoder),例如T5(Text-to-Text Transfer Transformer),它们是能熟练进行序列到序列(seq2seq)转换的“翻译家”
自然语言生成
-
文本生成:根据给定的上下文或提示,自动生成文本,如自动写作、诗歌创作、故事生成等。
-
语音合成:将文本转换为听起来自然的语音,用于有声书、导航系统、虚拟助手等。
-
聊天机器人:能够与人类实现多轮对话的聊天助手;
-
文本到知识:从文本中提取知识,构建知识图谱或语义网络;
-
语义解析:将自然语言表达转换为形式化的逻辑表示,用于命令解析、查询理解等。
NLG任务仅解码器式的(decoder-only),例如GPT(Generative Pretrained Transformer),它们是充满创意的“作家”。