GPT-4o在加密货币情绪动态和行为模式应用

本文研究了加密货币相关讨论中的预测性陈述、希望言论和后悔检测行为，旨在通过少量学习和大语言模型（如GPT-4o）分析投资者的情绪动态和预测行为。该问题的研究难点包括：数据量有限、资源可用性不足、需要准确分类预测性陈述、希望和后悔情绪的表达和分析。

1 概述

1.1 预测性陈述 (Predictive Statement)

预测性陈述是指对投资或市场未来表现或趋势的预测。根据预测内容，可以将预测性陈述分为以下四类：

增量预测 (Incremental): 预测未来事件或结果将有所改善或增长，例如“市场占有率将在下一季度稳步增长”。
减量预测 (Decremental): 预测未来事件或结果将有所下降或恶化，例如“预计下个财季销售额将下降”。
中性预测 (Neutral): 预测未来事件或结果将保持稳定，没有显著变化，例如“公司预计未来一个季度的收入将保持稳定”。
非预测性文本 (Non-Predictive): 不包含对未来事件或结果进行预测的内容，例如“区块链技术正在改变全球各个行业”。

1.2 希望检测 (Hope Detection)

希望检测旨在识别文本中表达希望情感的内容。根据希望的性质，可以将希望分为以下四类：

广义希望 (Generalized Hope): 对加密货币领域整体持有积极乐观的态度，例如“对加密货币的未来充满期待！”
非希望 (Not Hope): 不表达任何希望或期待的情感，例如“我不认为这种加密货币会增值”。
现实希望 (Realistic Hope): 对未来事件或结果持有合理的期望，例如“随着区块链技术的发展，这种加密货币有望实现增长”。
非现实希望 (Unrealistic Hope): 对未来事件或结果持有不切实际的期望，例如“我坚信这种加密货币会让我一夜之间成为百万富翁”。

1.3 遗憾检测 (Regret Detection)

遗憾检测旨在识别文本中表达遗憾情感的内容。根据遗憾的原因，可以将遗憾分为以下三类：

行动遗憾 (Regret by Action): 由于采取了某种行动而感到后悔，例如“我后悔购买了这种加密货币，它已经贬值了很多”。
不行动遗憾 (Regret by Inaction): 由于没有采取某种行动而感到后悔，例如“我应该早点购买这种加密货币，现在价格已经涨得很高了”。
无遗憾 (No Regret): 不表达任何遗憾的情感，例如“我很高兴我没有投资这种加密货币，它正在崩盘”。

2 方法

2.1 数据收集

从两个研究论文中收集了来自 X 平台的数据，时间跨度为 2021 年 9 月至 2023 年 3 月。从 115,899 条推文中随机选择了 5,000 条评论，并从中选择了每种加密货币 1,000 条推文。

2.2 数据评估

使用 Cohen’s Kappa 系数评估 GPT-4o 模型与人工标注之间的可靠性。对 1,000 条评论进行人工标注，并与 GPT-4o 模型的结果进行比较，结果显示 Kappa 系数分别为：希望检测 0.4393%，遗憾检测 0.5796%，预测性陈述检测 0.7173%。

2.3 数据预处理

URL 移除：使用正则表达式删除数据集中的 URL。
文本清洗：删除特殊字符和长度小于等于 2 的单词。
其他处理：包括去除多余字符、分词和文本规范化。

2.4 模型训练和执行

使用 GPT-4o 模型进行少样本学习，使用标注的示例进行训练。
对于每条评论，将包含评论和示例标签的结构化提示输入模型。
模型根据其理解对评论的情感和预测性质进行分类，并将分类标签存储在数据集中。

2.5 分类任务

预测性陈述：将评论分类为增量预测、减量预测、中性预测或非预测性。
希望话语检测：将评论分类为广义希望、非希望、现实希望或非现实希望。
遗憾检测：将评论分类为行动遗憾、不行动遗憾或无遗憾。

2.6 方法的优势

少样本学习： GPT-4o 模型的少样本学习能力可以有效地进行文本分类，无需大量标注数据。
多任务学习：同时进行预测性陈述、希望话语检测和遗憾检测，可以更全面地了解加密货币投资者 sentiment。
高可靠性：与人工标注结果相比，GPT-4o 模型的分类结果具有较高的可靠性。

2.7 方法的局限性

数据量有限：数据集规模较小，可能限制了模型的泛化能力。
模型复杂度： GPT-4o 模型计算资源消耗较大，成本较高。

3 结果

3.1 预测性陈述

每种加密货币的评论中都存在大量的预测性陈述，但增量预测和减量预测的比例有所不同。

Matic 的增量预测比例最高，表明用户对其未来表现持更乐观的态度。
Cardano 的预测比例最低，表明用户对其投资热情相对较低。
Binance 的减量预测比例最高，表明用户对其未来表现持更悲观的态度。

3.2 希望检测

用户对不同加密货币的希望表达存在差异。

Fantom 的“非希望”评论比例最高，表明用户对其持怀疑或消极的态度。
Matic 的“非现实希望”评论比例最高，表明用户对其持有过度乐观或不切实际的期望。
Cardano 的“广义希望”评论比例最高，表明用户对其未来投资前景持更乐观的态度。

3.3 遗憾检测

不同加密货币的遗憾表达也存在差异。

Fantom 和 Binance 的“行动遗憾”和“不行动遗憾”评论比例最低，表明用户对其持更满意或自信的态度。
Ripple 的“行动遗憾”评论比例最高，表明用户对其过去投资决策持有更多的遗憾。
Matic 的“不行动遗憾”评论比例相对较高，表明用户对其错过投资机会持有更多的遗憾。