欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 资讯 > 【大语言模型-论文速读】GPT的不确定性判断

【大语言模型-论文速读】GPT的不确定性判断

2024/12/24 22:10:37 来源:https://blog.csdn.net/fyf2007/article/details/142798869  浏览:    关键词:【大语言模型-论文速读】GPT的不确定性判断

【大语言模型-论文精读】GPT’s Judgements Under Uncertainty

Authors: Payam Saeedi and Mahsa Goodarzi
论文:https://arxiv.org/pdf/2410.02820
在这里插入图片描述

文章标题翻译

GPT的不确定性判断
Payam Saeedi Rochester Institute of Technology
Mahsa Goodarzi The State University of New York at Albany

摘要

本文研究了人类认知中的固有偏见(例如损失厌恶、框架效应和合取谬误)是否体现在GPT-4o在概率场景中的判断和决策中。通过在九种认知偏见上进行1350次实验,并分析统计与启发式推理的回答,我们展示了GPT-4o在回应具有相似底层概率表示的提示时的矛盾方法。研究结果还揭示了AI的表现参差不齐,它既展示了类似人类的启发式错误,也做出了统计上合理的决策,尽管它经历了相同提示的相同迭代。

创新点

  • 认知偏见的AI体现: 研究了人类认知偏见是否以及如何体现在大型语言模型(LLMs)的决策和判断中。
  • 大规模实验: 在九种不同的认知偏见上进行了1350次实验,以评估GPT-4o的反应。
  • 统计与启发式推理的对比: 分析了GPT-4o的回答是属于统计推理还是启发式推理。

算法模型

  • GPT-4o: 使用OpenAI的API进行实验,GPT-4o是目前为止OpenAI提供的速度最快、效率最高的模型。
  • 零次推理链: 在实验中使用了零次推理链提示技术,让AI以“参与社会实验的人类”的角色进行回答。

实验效果

  • 实验总数: 1350次
  • 详细数据:
    • 合取谬误: GPT-4o在所有实验中几乎总是提供了统计上合理且正确的回答。
    • 概率忽视: 在某些概率忽视实验中,GPT-4o能够正确理解并应用概率概念。
    • 框架效应: GPT-4o在正负框架的同一场景中给出了矛盾的回答。
    • 损失厌恶和展望理论: GPT-4o在大多数实验中未能考虑基于硬币翻转结果的预期价值。
  • 结论: GPT-4o在处理某些类型的认知偏见时表现出了较高的性能,但在特定条件下仍然容易受到认知偏见的影响。
    在这里插入图片描述

文章中提到的GPT-4o模型在处理认知偏见方面的表现呈现出一种混合的模式,它在某些领域做得较好,而在其他领域则存在明显的不足。具体而言,如下

做得好的方面:

  1. 合取谬误(Conjunction Fallacy)

    • GPT-4o在处理合取谬误方面表现出色,始终提供了统计上合理且正确的回答。它能够理解并且正确地应用概率原则,即两个集合的交集总是小于任一集合的大小。
  2. 某些概率忽视(Probability Neglect)

    • 在某些概率忽视的实验中,GPT-4o能够正确地识别事件的独立性,并据此做出反应。例如,当询问一系列硬币投掷中出现正面的概率时,GPT-4o能够坚持每次投掷的概率是独立的。

有待改进的方面:

  1. 偏见相似性(Bias of Resemblence)

    • GPT-4o在识别和处理偏见相似性方面表现不佳,几乎在所有情况下都依赖于简化的启发式方法,而不是基于基础概率进行判断。
  2. 框架效应(Framing Effect)

    • 在框架效应的实验中,GPT-4o对于同一场景的不同表述给出了矛盾的回答,表现出了与人类类似的启发式错误。
  3. 损失厌恶(Loss Aversion)和展望理论(Prospect Theory)

    • GPT-4o在处理损失厌恶和展望理论相关的实验时,往往忽略了基于硬币投掷结果的预期价值,倾向于选择风险较小的选项,而不是根据概率计算预期价值。
  4. 沉没成本谬误(Sunk Cost Fallacy)

    • 尽管GPT-4o能够识别沉没成本谬误并正确引用这一概念,但在实验中它在82%的情况下正确回答,仍有18%的情况未能正确处理。

推荐阅读指数

★★★★☆

推荐理由:

  • 研究的创新性: 该研究探讨了AI在模拟人类决策过程中的认知偏见,这是一个相对较新且重要的研究领域。

扣分理由:

  • 模型的泛化能力: 研究仅在GPT-4o上进行,可能无法完全泛化到其他模型。
  • 实验设计的局限性: 使用零次推理链提示技术可能不能完全代表现实世界中LLM的应用情境。

后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com