ACL 2024
1 intro
- 基于 Transformer 的大模型一般都有很多层
- 在广泛采用的 PEFT 技术(包括 Adapters 和 LoRA)中,尤其是在深层中,也存在过度平滑现象(即token之间的相似度很高)
- 论文评估了同一语句中 token 之间的余弦相似性以检测过平滑现象
- 给定一个包含m个 token的句子(h1,h2,....hm),其token间余弦相似性为
- 结果如下:
- 随着模型层数的增加,token之间越来越像了
- ——>论文提出了 SIBO
- 通过在 PEFT 模块(adapter/LORA)的输入中注入初始残差,减少了 Transformer 模型中的过平滑问题