大模型微调--文章1

2024/10/24 14:15:45 来源：https://blog.csdn.net/sccum/article/details/141068077 浏览: 次关键词：大模型微调--文章1

原文地址

链接：https://zhuanlan.zhihu.com/p/635152813

思考题

问题1：self attention对于计算的并行性体现在哪里？（解决）

答案： 1.矩阵运算的并行性 2.多头注意力的并行性 3.无序列依赖性（写一个序列进行分词，转化为token，embedding，然后计算QK^T就能看出来了）；

问题2：表示子空间是什么意思？（解决）

答案：这个其实很容易理解，就是不同的注意力头可以学习到序列的不同的特征，将不同的特征综合起来就是这个多头注意力学习到的特征了；

问题3：transformer结构怎么进行更好地并行训练？（解决）

答案：3.1:self-attention计算注意力的时候是并行计算的；
3.2：层并行化，Transformer的不同层放到不同的GPU上进行并行处理；
3.3：数据并行化：将数据切分为一定大小的batch；
等等

问题4：什么是灾难性遗忘？（解决）

答案：灾难性遗忘就是在学习了新的知识之后，会把之前旧的知识遗忘，这主要是因为权重更新的冲突，也是全量微调的一个弊端；

问题5：高效微调技术可以粗略分为以下三大类：增加额外参数（A）、选取一部分参数更新（S）、引入重参数化（R）。在这段话中，什么是重参数化？（未解决）

答案：简单来说就是低秩分解类似的，还没有更深的理解；

问题6：全量微调和重新预训练有什么区别？（解决）

答案：全量微调是用预训练的大模型对新的任务进行全部参数的微调，而重新预训练是重新准备大型数据集对预训练的大模型进行再次预训练

问题7：文章1主要讲了什么内容？结构是什么样的？有什么认知性的启发性收获？（这一章不用出动手题）（解决）

答案：讲解一下为什么要做高效的参数微调，高效的参数微调和全参微调的对比，以及高效的参数微调的方法有哪些（问题5），没有什么认知上的启发性收获。

大模型微调--文章1

原文地址

链接：https://zhuanlan.zhihu.com/p/635152813

思考题

问题1：self attention对于计算的并行性体现在哪里？（解决）

问题2：表示子空间是什么意思？（解决）

问题3：transformer结构怎么进行更好地并行训练？（解决）

问题4：什么是灾难性遗忘？（解决）

问题5：高效微调技术可以粗略分为以下三大类：增加额外参数（A）、选取一部分参数更新（S）、引入重参数化（R）。在这段话中，什么是重参数化？（未解决）

问题6：全量微调和重新预训练有什么区别？（解决）

问题7：文章1主要讲了什么内容？结构是什么样的？有什么认知性的启发性收获？（这一章不用出动手题）（解决）

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

大模型微调--文章1

原文地址

链接：https://zhuanlan.zhihu.com/p/635152813

思考题

问题1：self attention对于计算的并行性体现在哪里？（解决）

问题2：表示子空间是什么意思？（解决）

问题3：transformer结构怎么进行更好地并行训练？（解决）

问题4：什么是灾难性遗忘？（解决）

问题5：高效微调技术可以粗略分为以下三大类：增加额外参数（A）、选取一部分参数更新（S）、引入重参数化（R）。在这段话中，什么是重参数化？（未解决）

问题6：全量微调和重新预训练有什么区别？（解决）

问题7：文章1主要讲了什么内容？结构是什么样的？有什么认知性的启发性收获？ （这一章不用出动手题）（解决）

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

问题7：文章1主要讲了什么内容？结构是什么样的？有什么认知性的启发性收获？（这一章不用出动手题）（解决）