欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 新闻 > 焦点 > 【论文阅读】Large Language Models for Equivalent Mutant Detection: How Far Are We?

【论文阅读】Large Language Models for Equivalent Mutant Detection: How Far Are We?

2024/11/19 17:54:07 来源：https://blog.csdn.net/weixin_47575900/article/details/143860027 浏览: 次关键词：【论文阅读】Large Language Models for Equivalent Mutant Detection: How Far Are We?

阅读笔记：Large Language Models for Equivalent Mutant Detection: How Far Are We?

1. 来源出处

本文发表于《ISSTA’24, September 16–20, 2024, Vienna, Austria》会议，由Zhao Tian, Honglin Shu, Dong Wang, Xuejie Cao, Yasutaka Kamei和Junjie Chen撰写。

2. 先前方法存在的不足

传统的等价突变检测（EMD）技术存在以下不足：

基于规则的方法：如编译优化、约束测试等，在复杂开发场景中表现有限。
机器学习方法：包括KNN、SVM等传统分类器，以及基于树的神经网络模型，虽然通过代码特征提取有所改进，但无法充分捕捉程序语义差异，尤其在语法细微差别方面。
数据稀缺性：训练数据不足，难以泛化到未见过的突变情况。

3. 现阶段面临的挑战

尽管大语言模型（LLMs）在自然语言处理（NLP）和软件工程（SE）领域表现出色，但在等价突变检测中的有效性和效率尚不明确。

4. 本文如何解决这些挑战

本文通过大规模实证研究，探讨了LLMs在等价突变检测中的应用，具体方法如下：

数据集构建：使用MutantBench数据集，包含4,400个C/C++和Java突变对。
策略评估：比较LLMs与现有EMD技术的有效性，并评估LLMs的不同策略（如代码嵌入和提示）。
正交性分析：评估不同EMD技术之间的正交性。
时间效率测量：计算训练和推理的时间开销。

5. 具体介绍本文使用的方法

LLMs选择：包括CodeBERT、GraphCodeBERT、PLBART、CodeT5、UniXCoder、CodeT5+、StarCoder、Code Llama和ChatGPT。
预训练代码嵌入策略：利用LLMs的编码器部分生成代码嵌入向量，并通过多层感知机（MLP）分类器进行预测。
微调策略：在训练过程中同时更新编码器和分类器的参数。
零样本提示策略：直接利用突变对和结构指令提示LLMs进行检测。
少量样本提示策略：通过少量示例学习突变对和语义等价性的关系。
指令微调策略：在包含指令的训练集中微调LLMs，以提高检测性能。

6. 实验设计和结果

RQ1：LLMs的性能
- 结果表明，LLMs在所有基准中的表现均优于传统方法。例如，UniXCoder和CodeT5+的F1分数分别为81.88%，显著高于其他方法。
- 小尺寸的LLMs（如UniXCoder）在等价突变检测中表现最佳，表明数据模态和预训练任务的重要性。
RQ2：最佳策略
- 微调的UniXCoder在所有组合中表现最佳，F1分数提升1.16%至78.85%。
- 代码嵌入策略（无论是预训练还是微调）都优于提示策略，尤其是在精度、召回率和F1分数上。
RQ3：EMD技术间的正交性
- LLMs基方法和微调代码嵌入策略在独特正确/错误检测和各突变操作符的检测性能上均优于其他方法。
RQ4：效率
- LLMs基方法的推理时间略长于传统方法，但因其高准确性，额外的成本是可接受的。
- 微调的UniXCoder训练时间为2566.1184秒，是预训练版本的三倍，表明需要权衡资源消耗和效果。

7. 讨论与未来工作

模型大小的影响：研究发现模型大小并非决定性因素，数据模态和预训练任务更为重要。
嵌入质量的影响：t-分布随机邻域嵌入（t-SNE）分析显示，微调的UniXCoder在嵌入空间中的分离度更高，表明嵌入质量与检测性能密切相关。
未来研究方向：跨编程语言的研究、Chain-of-Thought提示技术、避免生成等价突变、重复突变检测等。

8. 结论

本文通过大规模实证研究验证了LLMs在等价突变检测中的有效性和效率，特别是微调的代码嵌入策略表现最佳。此外，本文还为未来的研究提供了方向，如跨语言研究、CoT提示技术、结合避免生成等价突变的策略等。

以上内容详细总结了论文的主要贡献、方法、实验设计及结果，并讨论了未来的研究方向。

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

工具类-基于 axios 的 http 请求工具 Request Java-异常处理机制-try-catch 麒麟服务器日志采集(服务器端) 常用命令之LinuxOracleHivePython 2025大润发购物卡回收三大途径详解（附带最新回收报价单）三台主机实现级联复制