“Fino1: On the Transferability of Reasoning-Enhanced LLMs to Finance”
论文地址:
https://arxiv.org/pdf/2502.08127v1
Github地址:
https://github.com/The-FinAI/Fino1
摘要
本研究对16种大型语言模型(LLMs)在复杂金融任务中的表现进行了全面评估,这些任务涵盖了金融文本分析、表格数据解读以及基于方程的问题解决。评估的关键领域包括数值推理能力、金融术语的理解、长上下文的处理以及多表格信息的综合分析。研究发现,尽管高质量的数据集和深入的预训练有助于提升模型在金融推理方面的表现,但通用性的增强方法,例如通过链式思维(CoT)进行微调,并不总能带来显著的效果。此外,所有测试的推理策略在处理长上下文和涉及多个表格的任务时均遇到了较大的困难。
为此,我们构建了一款基于Llama-3.1-8B-Instruct的新型金融推理增强模型。该模型通过结合CoT微调与领域特定的强化学习技术,实现了性能上的显著提升,总体表现较原有模型提高了10%。这一改进使得我们的新模型不仅在所有8B规模的模型中脱颖而出,甚至超越了更大规模的Llama3-70B-Instruct模型。这表明,在金融任务中,针对特定领域的适应性优化至关重要。未来的研究方向应继续聚焦于多表格推理能力的提升、长上下文处理技术的改进,以及对金融专业术语更深层次的理解。
综上所述,这项研究表明,为了更好地应对复杂的金融任务,大型语言模型需要更加注重领域特定的知识整合与优化,而不仅仅是依赖于模型规模的扩大或通用性增强策略的应用。
简介
大型语言模型(LLMs)在自然语言处理领域展现出了卓越的能力,但在金融领域的推理能力方面,其潜力尚未被充分挖掘。金融任务要求模型具备精确的推理技能,这不仅涉及对专业术语的理解,还包括处理金融概念与数字之间的复杂关系以及解析金融表格的能力。本研究致力于评估当前可用的推理模型在金融任务中的实际表现,深入分析它们的优势与不足,以推动金融人工智能的研究进展。特别关注以下几个关键点:
- 通用领域推理增强技术向金融领域的迁移能力;
- 推理增强技术对不同金融任务的具体影响;
- 小型推理模型与大规模LLMs在金融推理任务中的性能差异;
- 大规模语言模型在处理复杂金融任务时所面临的局限性。
为了实现这一目标,我们选取了16种大型语言模型,在三个专门设计用于评估金融推理能力的数据集上进行了详尽测试,这些数据集分别是FinQA、DM-Simplong和XBRLMath。这些模型既包括通用型也涵盖增强型推理模型,参数规模从8B延伸至70B,力求全面覆盖并评估模型的金融理解力。研究结果揭示了一些重要发现:
- 通常被认为有效的通用推理增强策略,例如DeepSeek-R1和GPT-o1,在金融任务上的表现反而不如一些基础模型;
- 当模型参数量达到32B或70B后,其性能并未随着规模进一步显著提升;
- 此外,不同的推理增强策略在金融任务中的效果存在显著差异,其中通用领域的技术改进对金融推理的帮助有限,而像DeepSeek和Qwen-Math这样的模型虽然在数值准确性上有一定进步,但它们在理解和建模长文本及金融术语方面仍然存在明显短板。
基于上述观察,我们开发了一款专为金融任务定制的推理增强语言模型,选择Llama3.1-8B-Instruct作为初始模型。通过引入链式思维(CoT)微调与强化学习(RL),结合HuatuoGPT-o1的回溯策略以及FinQA数据集的支持,我们构建了一条高效的推理路径,并利用GPT-4o进行路径优化。经过简单的微调,该模型在多个数据集上的表现得到了显著提高,甚至接近某些顶尖闭源模型的表现水平。这一成果表明,针对金融领域的特定需求进行推理增强可以极大地改善模型在实际应用中的效果,而单纯依赖于通用领域的推理增强技术则难以达到相同的效果。
本研究首次系统性地探讨了如何增强大型语言模型在处理金融输入(如财务报告、表格、方程、XBRL文档等)时的推理能力,强调了对金融数据进行针对性微调的重要性。未来的研究方向应集中在深化金融知识的理解、增强多表推理能力和探索更多样化的推理增强策略上,以进一步提升模型在金融领域的适用性和效率。
01方法
数据集
我们选取了三个具有不同特性的任务来进行研究:
FinQA。这是一个大规模的金融领域数据集,重点在于复杂的数值推理,它将结构化数据(如表格)与非结构化数据(如文本描述)相结合。该任务的主要难点在于对金融术语的理解以及从复杂的数据源中准确提取所需信息。
DocMath (simplong)。作为评估大型语言模型(LLMs)数值推理能力的一个综合性基准,此任务特别关注长篇文档和多层级表格的处理,要求模型能够从广泛的上下文中获取信息,并执行复杂的推理过程。
XBRL-Math。这一任务旨在评测模型在可扩展商业报告语言(XBRL)文件环境下的数值推理能力。这些结构化的财务文档包含标准化的标签、公式及多层次的数值关系,因此模型需要具备从文档中提取并推导相互关联的金融术语和公式的技能。
借助上述三个数据集开展实验,我们可以全面衡量模型在金融术语理解、相关数字与实体提取,以及长上下文和多表格推理等方面的表现。
评估模型
对现有的大型语言模型(LLMs)进行评估时,我们选取了多个系列的模型,涵盖不同规模从8B到700B参数量。这些模型不仅包括先进的闭源版本,如具备多模态能力的GPT-4o、专注于优化推理能力的GPT-o1以及高效的小型化版本GPTo3-mini,还涉及其他知名系列的代表作。
具体而言,我们选择了DeepSeek-V3,这是一款拥有671B参数的专家混合模型(Mixture-of-Experts),还有DeepSeek-R1,作为第一代推理模型,其性能可与GPT-o1相媲美。此外,通义千问系列中的Qwen2.5-72BInstruct在中英文任务上表现出色,而专门针对数学推理设计的Qwen2.5-72B-Instruct-Math也纳入了评估范围。同时,考虑到Llama系列模型因其开源特性被广泛采用并成为行业基准,我们也对其进行了考量。最后,为了探索效率与性能之间的平衡点,我们还加入了基于DeepSeek-R1蒸馏得到的DeepSeek-R1Distill模型。通过这样的选择,我们可以全面地对比不同类型和规模的LLMs在各项任务上的表现。
评估设置
在金融报告和数学符号的背景下,大型语言模型(LLMs)需要具备从文本中提取相关信息并执行计算的能力来回答问题。例如,DeepSeek-R1 和 GPT-o1 这样的模型能够提供详细的推理步骤,并将最终结果以标准的数学格式展示出来。为了评估这些模型的表现,采用了LLM-as-judge的方法,其中GPT-3.5-Turbo被用来识别最终答案,并对不同模型的结果进行数学上的准确性比较。在实验设置上,对于大型模型,我们通过API调用的方式来进行测试;而对于较小规模的模型,则利用VLLM框架,在四个A100 GPU的支持下完成结果生成。这种方法确保了无论是大规模还是小规模模型都能在一个公平的环境中得到评测。
Fino1:金融推理LLMs
为了增强金融任务中的领域特定推理能力,研发了专门针对金融任务设计的推理增强型大语言模型(LLM)——Fino1。该模型利用FinQA数据集构建了高质量的领域特定推理路径,此数据集包含了超过5000个涉及金融报告与表格的问答对。在构建推理路径时,采用GPT-4o生成初步的推理步骤,并借鉴华佗GPT-o1的方法对这些链式思维(CoT, Chain of Thought)推理路径进行精细化处理。具体而言,在精炼过程中,使用验证器评估生成的CoT推理路径是否正确;如果发现错误,则通过一系列策略如回溯、探索替代路径、交叉验证以及修正等手段进行迭代优化,直至最终生成准确的答案为止。这一过程确保了Fino1不仅能够在金融语境下提供精确的信息提取,还能执行复杂的数值计算和逻辑推导。
模型训练
在金融推理任务中,我们以Llama3.1-8B-Instruct模型为基础进行监督微调(SFT),其中输入为问题,输出则包括详细的推理路径及最终答案。为了进一步提升模型性能,采用强化学习(RL)与奖励模型相结合的方式评估生成的推理路径质量。在此过程中,我们引入了稀疏奖励机制,并通过近端策略优化(PPO)算法对模型参数进行优化。
验证器被用来检查推理路径的正确性与连贯性,如果发现错误或不合理的推理步骤,则通过一系列迭代改进措施如回溯、探索新路径以及修正等手段来优化推理过程,直至生成理想的解决方案为止。
在SFT阶段,设定学习率为5e-6,并进行三轮训练,同时将最大序列长度扩展至8192以适应复杂的金融推理场景。此外,为了减少计算资源消耗,我们应用了LoRA技术对模型进行轻量化处理。进入RL阶段后,我们将学习率调整至更低的5e-7,继续完成三轮训练。在此阶段,利用之前已经训练好的奖励模型作为指导,帮助模型更好地理解和优化推理路径的质量,从而实现更精准、更高效的金融推理能力。
02结果
整体分析
DeepSeek-R1在所有参与评估的模型中表现出色,取得了68.93的高分,这一成就主要归功于其在XBRL-Math任务上的优异成绩。紧随其后的是DeepSeek-R1的蒸馏版本,包括DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B,它们同样展现了强大的推理能力。尽管GPT-4o在各类数据集上的整体表现不俗,但由于其在XBRL-Math上的得分相对较低,因此未能超越DeepSeek-R1。
与此同时,Qwen2.5-72B-Instruct与Llama3.3-70B-Instruct等通用型70B参数规模的模型也展示了强劲的实力,尤其是Llama3.3-70B相较于其前代产品实现了显著的进步. 然而,采用通用推理策略的模型在金融特定任务中的效果并不理想,这表明领域特定优化的重要性。例如,在8B参数级别的模型中,Fino1-8B以61.03的得分脱颖而出,显示了其在金融任务上的独特优势。
值得注意的是,虽然一些经过推理增强的模型在XBRL-Math任务上有所改进,但在FinQA和DM-Simplong等其他金融相关任务上的表现却相对较弱。这种情况进一步突显了针对具体任务进行模型优化的关键作用,强调了开发专门适用于金融领域的推理模型的价值所在。
从研究结果中,我们可以得出关于大型语言模型(LLM)在金融推理任务中的表现的一些关键发现:
1) 提升通用推理能力并不一定能够改善金融任务的表现。例如,GPT-o1和DeepSeek-R1在数学与逻辑推理任务上表现出色,但在金融基准测试中却落后于其他模型,如GPT4o。这是因为金融推理不仅需要强大的逻辑推理能力,还需要对领域特定术语、财务报表结构以及数字模式有深入的理解。强调通用逻辑推理的模型可能在特定金融上下文中表现不佳,因此需要专门针对金融领域的训练来弥补这一不足。此外,推理优化可能会削弱模型对金融知识的记忆,影响其对财务术语和行业指标的理解。
2) 不同的推理增强策略在金融推理任务中的效果存在显著差异。GPT-4o在FinQA和DM-Simplong上的表现优于GPT-o1,这表明后者的推理策略更适合解决一般性问题。Qwen2.5-72B-Instruct-Math在XBRL-Math上表现出色,但在FinQA和DM-Simplong上的成绩则大幅下滑,这意味着数学推理增强对于处理结构化金融数据有效,但并不适用于广泛的金融任务。DeepSeek-R1-Distill-Llama-8B在XBRL-Math上表现出色,但在其他金融任务中的提升有限,显示出不同推理策略针对金融推理的不同方面有所侧重。GPT-o1的推理增强未能带来一致性的改进,可能是因为缺乏相关的金融推理数据,这也突显了将广泛适用的推理技术适配到金融逻辑中的挑战。
3) 模型规模的扩大并不必然提升金融任务的表现。DeepSeek-70B与其蒸馏版本DeepSeek-R1-Distill-Qwen-32B在金融任务上的表现相似。通常情况下,当模型参数达到约70亿时,其性能趋于稳定。对于像XBRL-Math这样的任务,重视精确计算的小型模型通过算术和模式识别也能具有竞争力。在结构化数据和数理推理方面,大型模型的优势并不明显。
4) Llama 3.1-8B-Instruct在金融任务上的表现有了显著提升,平均分从39.95增加到50.12,其中XBRL-Math和FinQA分别提高到了62.22和54.13。Llama 3.1-70B-Instruct的表现优于Llama 370B-Instruct(58.17 vs. 52.20),特别是在DM-Simplong上提升最大(48.00 vs. 41.00)。Llama 3.3-70B-Instruct的整体表现最佳(64.05 vs. 58.17),在FinQA和XBRL-Math上分别达到了68.15和70.00。Llama 3.1使用了一个包含超过15万亿个标记的扩展数据集,从而显著提升了性能。而Llama 3.3则通过在线偏好优化等后训练技术,既降低了训练和推理成本,又提升了核心性能。
5) 当前的推理模型在处理长篇金融文本及跨表关联时表现欠佳,尤其是在信息提取和综合方面。不同数据集之间的性能差异表明,当前的大型语言模型(LLMs)在整合数学符号与文本推理方面存在困难。例如,GPT-4o在FinQA上的得分为72.49,但在DM-Simplong上降至60.0。DeepSeekR1-Distill-Qwen-32B和DeepSeek-R1在XBRL-Math中的表现良好(分别为84.44和86.67),但在处理长上下文和多表关联时没有明显的改进。较小的模型在结构化输入(如XBRL-Math)中表现较好,但在长上下文中性能下降近30%,例如DeepSeek-R1Distill-Llama-8B在XBRL-Math中得分81.11,但在DM-Simplong中降至33.0。要解决这些问题,需要增强模型的长上下文保留能力、结构化数据理解和多模态文档理解能力,以进一步提升金融推理能力。
6) Fino1-8B模型通过利用从GPT-4o提取的推理路径进行训练,显著提升了各数据集的表现,平均得分为61.03,比Llama 3.1-8B-Instruct提高了10.91分。Fino1-8B在FinQA、DM-Simplong和XBRL-Math等任务中的表现均优于其他模型,尤其在XBRL-Math中表现突出(82.22 vs. 62.22)。尽管训练数据仅来源于FinQA,Fino1-8B在所有数据集上都展现了改进,表明金融领域特定的推理增强数据可以显著提升模型对金融术语、长文本理解、表格推理和方程解释的能力。采用回溯策略以及其他推理路径构建方法(如探索新路径、验证和修正)增强了模型的逻辑一致性、计算准确性和整体鲁棒性。研究表明,金融推理面临着独特的挑战,强调了需要更加专业的训练方法和架构改进,以提升金融理解、结构化数据处理和多步骤数值推理能力。
错误分析
尽管DeepSeek-R1作为一款深度推理模型在某些复杂任务中表现出色,但在金融相关任务上,其表现却不及通用模型GPT-4o和DeepSeek-V3,特别是在FinQA数据集上的成绩较为逊色。通过对DeepSeek-R1的错误进行分析发现,该模型倾向于过度推理,未能严格遵守给定指令,从而导致最终答案不够准确。此外,DeepSeek-R1在处理金融概念时显示出一定的敏感性不足,例如在理解“平均股价”这一术语时出现了偏差,将员工购买股票的价格误判为补偿费用,进而造成数据的高估。
相比之下,DeepSeek-V3展现了更强的财务推理能力,能够准确识别补偿费用对财务状况的具体影响。这表明,在涉及专业领域知识的任务中,如金融分析,通用模型可能由于其广泛的训练数据覆盖范围而具备更好的适应性和准确性,而专注于深度推理的模型则可能因过于强调逻辑推导而忽视了特定领域的细节要求。因此,在金融任务中,模型不仅需要强大的推理能力,还需要对金融术语及其实际应用有深刻的理解。
未来方向
金融推理模型面临着独特的挑战,这要求模型必须加强对金融知识和术语的理解能力。为此,建议通过利用金融领域的语料库以及结构化的财务报告来进行模型的改进。同时,模型还需要提升处理跨表格逻辑推理和长篇幅文本的能力。未来的研究方向应当着重于开发能够有效进行表间逻辑推理和长文本理解的机制。
从现有模型的表现来看,GPT-o1与DeepSeek-R1在金融任务中的表现并不一致。尽管GPT-o1采用了链式推理技术,但这一技术并未显著提高其在金融基准测试中的成绩。而DeepSeek-R1虽然具备一定的自我反思能力,在处理结构化数值推理时表现出色,但在涉及文本推理的任务上仍有不足之处。因此,为了构建更为有效的金融推理模型,未来的努力应集中在金融领域的专用预训练方法、多表格理解技术以及长文本处理能力的优化上,以期克服当前存在的局限性并实现性能的全面提升。
局限
由于模型规模的限制,当前仅对8B规模的模型(Fino1)进行了微调,而更大规模的模型(例如70B)或许能够从推理增强技术中获得更大的收益。评估范围较为局限,目前仅针对三个金融推理任务(FinQA、DM-Simplong、XBRL-Math)进行了测试,这并不能充分展现金融自然语言处理应用的全貌。
此外,在构建推理路径时过度依赖单一数据集FinQA,这在一定程度上限制了模型接触不同类型的金融推理模式的机会,通过扩展数据集可以有效提升模型的泛化能力。同时,当前用于构建推理路径的方法相对简单,仅仅采用了单一的技术手段(GPT-4o),如果能够探索多样化的路径生成策略,则有可能进一步强化模型的推理性能。
03总结
本文对16种专门用于增强推理能力的大型语言模型(LLM)以及通用LLM在金融任务中的表现进行了评估。研究发现,尽管这些增强型模型在一般任务中表现出色,但在金融推理方面却显示出领域适应性的不足。那些针对结构化数学推理进行了优化的模型,在数值相关任务(如XBRL-Math)中表现优异,但在处理金融文本理解和长上下文的任务时遇到了困难。
本文介绍了一款名为Fino1的新模型,它是一款基于Llama-3.1-8B-Instruct构建的增强推理LLM,使用FinQA数据集进行了训练。尽管训练过程中仅依赖单一数据集,Fino1在三个金融基准测试中的整体性能仍提升了大约10%。这一结果突显了金融领域特定数据对于提高LLM金融推理能力的重要性。未来的研究工作应当着重于改进金融知识适应、多表推理和长文档处理的能力。为了缩小通用推理能力和金融特定挑战之间的差距,需要通过结构化数据推理、检索增强方法以及领域感知预训练来优化领域特定的推理策略。