[论文阅读]TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks

TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks

http://arxiv.org/abs/2305.11430

文章的贡献是提出了一种通用的分类法，可用于设计具有特定属性的提示语，以执行各种复杂任务。通过该分类法，未来的基准研究可以报告研究中使用的提示语的具体类别，从而对不同研究进行有意义的比较。此外，通过该分类法建立一个共同的标准，研究人员将能够就本地LLM在特定复杂任务中的表现得出更准确的结论。

提示词工程是一个迭代的过程，需要多种尝试和错误运行才能得到。

好的提示词应该具有以下内容：

明晰的目标
相关的数据
不同的子任务
评价标准/少样本示例
经由信息检索技术获取的额外信息
解释/寻求公正（可解释性）

TELeR

文章建议从以下四个方面对复杂任务的 LLM 提示进行分类。

转数：根据提示 LLM 执行复杂任务时使用的转数，提示可以是单转数或多转数。
表达方式：根据总指令和相关子任务的表达方式，提示可以是问题式的，也可以是指令式的。
角色：根据在提供实际提示之前是否在 LLM 系统中定义了适当的系统角色，提示可分为已定义系统角色或未定义系统角色。
详细程度：根据指令的详细程度，我们将提示分为七个不同的级别（0-6 级）。在这里，详细程度取决于是否有明确的目标、子任务划分、寻求解释、少量示例等不同方面。根据定义，"0 级 "意味着最小的细节，即没有任何方面/没有指令，而 "6 级 "意味着最高级别的细节，指令包括明确的目标、不同的子任务/步骤、明确的解释/说明要求、定义明确的评估标准、通过信息检索技术获取的附加信息和/或少量实例。请参见图 1，了解我们的分类法中每个级别的确切定义。

两个使用示例

元评论生成

元评审是科学同行评审过程中的一个重要环节，通常是一项复杂的工作，需要汇总来自多个评审人的专家评审意见（Shen 等人，2022 年，2023 年）。它是一个非常重要和相关的过程，有助于做出明智的决策，了解专家对所提交稿件的一致意见。鉴于近年来研究稿件投稿量激增，同行评审时间管理面临巨大挑战（Bansal 等人，2022c；Karmaker Santu 等人，2018），利用 LLM 来协助编辑（期刊）/项目主席（会议）根据相关专家审稿人提供的单个审稿文本为每篇稿件准备元评审初稿是很有吸引力的。

为了证明 TELeR 分类法适用于为这项复杂的任务分类不同类型的提示，我们在下文中展示了一些具有不同详细程度的提示示例。为简单起见，我们仅展示了系统角色未定义的单轮问题式提示示例。由于篇幅有限，我们没有展示其他变化。我们还假设有三位审稿人审阅了稿件，并提供了他们的评论（R1、R2、R3）作为元评论生成任务的数据。

LV0：<R1,R2,R3>
LV1：通过总结审稿人的评论给出一个元审评：<R1,R2,R3>
LV2：总结以下审稿人意见，编写元综述。最终成果应突出稿件的核心贡献、多位审稿人提到的共同优点/缺点、改进建议以及缺失的参考文献（如有）。审稿文本如下：<R1, R2, R3>
LV3：准备一篇元综述，回答审稿人评论中的以下问题（在问题后提供）。
1.根据审稿人的评论，作者的核心贡献是什么？
2.多位审稿人都提到了这项工作的共同优势是什么？
3.多位评审人都强调了这项工作的哪些共同缺点？
4.你对改进本文有何建议？
5.个别评论提到的参考文献有哪些缺失？
评论文本如下：<R1, R2, R3>
LV4："3 级提示 "+"好的成果应该是连贯的，突出多个审稿人提到的主要优点/问题，长度不超过 400 字，最后，答复应仅使用英文"。
LV5："4 级提示 "+"以下是与你的目标任务相关的补充信息。<使用信息检索技术获取的信息>"。
LV6："5 级提示 "+"详细说明你的回答，解释你做出实际选择的原因"。

用例 2：叙事编织

叙事编织，又称 "交织 "或 "多视角叙事"，是一种文学技巧，涉及多个故事情节的平行讲述，这些故事情节最终汇聚并交叉在一起（Bancroft，2018 年）。这种技巧常用于小说、短篇小说、电影和电视节目中，以创造复杂而引人入胜的叙事。叙事编织的确是一项复杂的任务，即使对人类来说也是如此，更不用说计算机了，因为它需要精心策划和执行，以确保每个故事情节都得到充分发展，并且不同的叙事线索之间相互平衡、相辅相成。如果操作得当，叙事编织可以创造出一个丰富而引人入胜的故事，让读者或观众投入其中。最近，语言模型在生成高质量受控文本方面取得了令人鼓舞的成果（Bansal 等人，2022a,b），因此，测试语言模型在叙事编织任务中的表现是非常直观的。现在，我们将展示如何使用所提出的 TELeR 分类法来对不同类型的提示进行分类，以用于叙事编排任务。

这次，我们仅展示了系统角色未定义的单轮指令式提示的示例。由于篇幅有限，其他变体就不一一列举了。我们还假定有两个替代叙述，它们描述的事件与我们的编织任务数据相同，目标是从两个输入叙述 N1 和 N2 中创建一个最终的编织叙述。

- 第 0 级：<N1, N2>
- 第 1 级：从以下备选叙述中编织出一个连贯的故事：<N1, N2>
- 第 2 级：根据以下备选叙述编织一个连贯的故事。最后的叙述应突出两个叙述所提供的共同信息、每个叙述所提供的有趣而独特的信息，以及这些叙述所传达的相互冲突的信息（如果有的话）。输入的备选叙述如下：<N1, N2>
- 第 3 级：通过完成以下任务，将后面提供的备选叙述编织成一个连贯的故事。 1.从两段叙述中提取重叠句对并进行转述。2.从每段叙述中提取独特的分句，并找出有趣的分句。3.提取两段叙述中的冲突句对，并解决冲突。4. 从重叠的独特冲突条款中生成段落，并将它们合并为一个文档。5.将合并文档中的句子重新排序，形成一个详细、连贯的故事。6. 将详细的故事总结为简洁的编排式叙述。备选叙述方式如下：<N1, N2>
- 四级提示："3 级提示 "+"好的输出应该是连贯的，突出单个叙述所提供的重叠-独特-冲突信息，长度少于 1000 字，仅使用英语"。
- 5 级提示："4 级提示 "+"以下是与您的目标任务相关的附加信息。<使用信息检索技术获取的信息>"。
- 6 级提示："5 级提示 "+"详细说明您的回答的理由，解释为什么您的回答包含某些信息而忽略了输入的其他信息"。

[论文阅读]TELeR: A General Taxonomy of LLM Prompts for Benchmarking Complex Tasks

TELeR

两个使用示例

元评论生成

用例 2：叙事编织

相关资讯

热文排行

最新新闻

推荐新闻

热搜词