欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 能源 > Mamba

Mamba

2025/4/19 12:04:44 来源:https://blog.csdn.net/m0_73811793/article/details/136819404  浏览:    关键词:Mamba

关于状态空间方程(state space models)

h(t)本身的状态参量,x(t)是这一时刻的输入

h‘(t)的导数就是与本身的状态以及输入有关.

y(t)就是输出

因为NLP是要处理离散的状态,所以要将连续的状态转换成离散的状态

关于这个zoh离散化

h(t)与h(t-1)前一时刻还有输入相关,其实可以看到在形式上与连续状态空间方程类似

有个缺点:对于一个时间部,这里的ABC是一个固定的值 ,如果时间部不同,那么ABC也不同,那么就无法实现convolutional

关于current和convolutional

  • Current:通常指的是递归神经网络(Recurrent Neural Network, RNN)中的术语,它表示网络在处理序列数据时,当前步骤的输出会依赖于前面步骤的信息。RNN能够处理任意长度的序列数据,并且在每一步都维护一个内部状态,这个状态就是“current state”,它包含了前面的信息。
  • Convolutional:指的是卷积神经网络(Convolutional Neural Network, CNN)中的术语,它表示网络通过卷积层来提取特征。在卷积层中,神经元会对输入数据的局部区域进行卷积操作,以此来捕捉局部特征。

motivation

 copy

输入是文本,我们要做的事是将文本中的单词copy到任意位置,这是简单的,因为对于同于一个token的ABC参数是一样的,因为我们可以对每个token采用相同参数处理

Token是文本中的最小单位,它可以是一个单词、一个标点符号或一个汉字。在处理文本数据时,模型会将输入文本拆分成一个个Token,每个Token都与一个唯一的数字ID相关联,这样模型就能够对其进行处理和理解。

selective copy

想把一些不相关的白色的词删去,但是因为每个token的ABC相同,很难有选择性,如果是transformer可以利用自注意力机制完成计算注意力分数,从而删除不相关的词语 

Parallel scan

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词