欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 文旅 > 手游 > 第一章 统计语言模型

第一章 统计语言模型

2025/2/25 0:12:44 来源:https://blog.csdn.net/hbkybkzw/article/details/144937472  浏览:    关键词:第一章 统计语言模型

统计语言模型

  • N元模型 (假设任意一个词 出现的概率由前面 N − 1 N-1 N1 个词决定,实际中应用最多的是N=3)

  • 二元模型(假设任意一个词 出现的概率只和其前面的词 有关)

    假定 S S S 表示某一个有意义的句子,由一连串特定顺序拍立的词 W 1 , W 2 , W 3 , . . . , W n W_1,W_2,W_3,...,W_n W1,W2,W3,...,Wn 组成,n 为句子的长度,我们想知道 S S S 在文本中出现的可能性
    P ( S ) = P ( W 1 , W 2 , W 3 , . . . , W n ) = P ( W 1 ) ⋅ P ( W 2 ∣ W 1 ) ⋅ P ( W 3 ∣ W 1 , W 2 ) ⋅ . . . . ⋅ P ( W N ∣ W 1 , W 2 , . . . , W n − 1 ) \begin{aligned} P(S) &= P(W_1,W_2,W_3,...,W_n) \\ &=P(W_1)\cdot P(W_2|W_1) \cdot P(W_3|W_1,W_2) \cdot ....\cdot P(W_N|W_1,W_2,...,W_{n-1}) \\ \end{aligned} P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2W1)P(W3W1,W2)....P(WNW1,W2,...,Wn1)
    后续的计算量会越来越大,几乎不可能完成,所以俄国数学家马尔科夫提出了一种偷懒但是颇为有效的方法:齐次马尔科夫性,即假设任意一个词 W i W_i Wi 出现的概率只和其前面的词 W i − 1 W_{i-1} Wi1 有关,即
    P ( S ) = P ( W 1 , W 2 , W 3 , . . . , W n ) = P ( W 1 ) ⋅ P ( W 2 ∣ W 1 ) ⋅ P ( W 3 ∣ W 1 , W 2 ) ⋅ . . . . ⋅ P ( W N ∣ W 1 , W 2 , . . . , W n − 1 ) ≈ P ( W 1 ) ⋅ P ( W 2 ∣ W 1 ) ⋅ P ( W 3 ∣ W 2 ) ⋅ . . . . ⋅ P ( W i ∣ W i − 1 ) ⋅ . . . . ⋅ P ( W N ∣ W n − 1 ) \begin{aligned} P(S) &= P(W_1,W_2,W_3,...,W_n) \\ &=P(W_1)\cdot P(W_2|W_1) \cdot P(W_3|W_1,W_2) \cdot ....\cdot P(W_N|W_1,W_2,...,W_{n-1}) \\ &\approx P(W_1)\cdot P(W_2|W_1) \cdot P(W_3|W_2) \cdot ....\cdot P(W_i|W_{i-1})\cdot ....\cdot P(W_N|W_{n-1}) \end{aligned} P(S)=P(W1,W2,W3,...,Wn)=P(W1)P(W2W1)P(W3W1,W2)....P(WNW1,W2,...,Wn1)P(W1)P(W2W1)P(W3W2)....P(WiWi1)....P(WNWn1)
    其中
    P ( W i ∣ W i − 1 ) = P ( W i , W i − 1 ) P ( W i − 1 ) P(W_i|W_{i-1}) = \frac{P(W_i,W_{i-1}) }{P(W_{i-1}) } P(WiWi1)=P(Wi1)P(Wi,Wi1)
    而估计联合概率 $P(W_i,W_{i-1}) $ 和边缘概率 $P(W_{i-1}) $ 现在变得简单,因为有了大量机读文本,也就是语料库(Corpus),只要数一数 W i , W i − 1 W_i,W_{i-1} Wi,Wi1 这对词在统计的文本中前后相邻出现了多少次 # ( W i , W i − 1 ) \# (W_i,W_{i-1}) #(Wi,Wi1) ,以及 W i − 1 W_{i-1} Wi1 本身在同样的文本中出现了多少次 # ( W i − 1 ) \#(W_{i-1}) #(Wi1) ,然后用两个数分别除以语料库的大小 # \# # ,即可以得到这些词的二元组的相对频度
    f ( W i , W i − 1 ) = # ( W i , W i − 1 ) # ( W i − 1 ) f(W_i,W_{i-1}) = \frac{\# (W_i,W_{i-1})}{\#(W_{i-1})} f(Wi,Wi1)=#(Wi1)#(Wi,Wi1)

    f ( W i − 1 ) = # ( W i − 1 ) # f(W_{i-1}) = \frac{\# (W_{i-1})}{\#} f(Wi1)=##(Wi1)

    根据大数定理,只要统计量足够,相对频度就等于概率,即
    P ( W i , W i − 1 ) ≈ f ( W i , W i − 1 ) = # ( W i , W i − 1 ) # ( W i − 1 ) P(W_i,W_{i-1})\approx f(W_i,W_{i-1}) = \frac{\# (W_i,W_{i-1})}{\#(W_{i-1})} P(Wi,Wi1)f(Wi,Wi1)=#(Wi1)#(Wi,Wi1)

    P ( W i − 1 ) ≈ f ( W i − 1 ) = # ( W i − 1 ) # P(W_{i-1}) \approx f(W_{i-1}) = \frac{\# (W_{i-1})}{\#} P(Wi1)f(Wi1)=##(Wi1)

    再约去分母
    P ( W i ∣ W i − 1 ) = P ( W i , W i − 1 ) W i − 1 ) ≈ # ( W i , W i − 1 ) # ( W i − 1 ) P(W_i|W_{i-1}) = \frac{P(W_i,W_{i-1}) }{W_{i-1}) }\approx \frac{\# (W_i,W_{i-1})}{\#(W_{i-1})} P(WiWi1)=Wi1)P(Wi,Wi1)#(Wi1)#(Wi,Wi1)


版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词