第一章统计语言模型

2025/2/25 0:12:44 来源：https://blog.csdn.net/hbkybkzw/article/details/144937472 浏览: 次关键词：第一章统计语言模型

统计语言模型

N元模型 （假设任意一个词出现的概率由前面 $N - 1$ 个词决定,实际中应用最多的是N=3）
二元模型（假设任意一个词出现的概率只和其前面的词有关）

假定 $S$ 表示某一个有意义的句子，由一连串特定顺序拍立的词 $W_1,W_2,W_3,...,W_n$ 组成，n 为句子的长度，我们想知道 $S$ 在文本中出现的可能性
$\begin{aligned} P(S) &= P(W_1,W_2,W_3,...,W_n) \\ &=P(W_1)\cdot P(W_2|W_1) \cdot P(W_3|W_1,W_2) \cdot ....\cdot P(W_N|W_1,W_2,...,W_{n-1}) \\ \end{aligned}$
后续的计算量会越来越大，几乎不可能完成，所以俄国数学家马尔科夫提出了一种偷懒但是颇为有效的方法：齐次马尔科夫性，即假设任意一个词 $W_i$ 出现的概率只和其前面的词 $W_{i-1}$ 有关，即
$\begin{aligned} P(S) &= P(W_1,W_2,W_3,...,W_n) \\ &=P(W_1)\cdot P(W_2|W_1) \cdot P(W_3|W_1,W_2) \cdot ....\cdot P(W_N|W_1,W_2,...,W_{n-1}) \\ &\approx P(W_1)\cdot P(W_2|W_1) \cdot P(W_3|W_2) \cdot ....\cdot P(W_i|W_{i-1})\cdot ....\cdot P(W_N|W_{n-1}) \end{aligned}$
其中
$P(W_i|W_{i-1}) = \frac{P(W_i,W_{i-1}) }{P(W_{i-1}) }$
而估计联合概率 $P(W_i,W_{i-1}) $ 和边缘概率 $P(W_{i-1}) $ 现在变得简单，因为有了大量机读文本，也就是语料库(Corpus),只要数一数 $W_i,W_{i-1}$ 这对词在统计的文本中前后相邻出现了多少次 $W_i,W_{i-1})$ ,以及 $W_{i-1}$ 本身在同样的文本中出现了多少次 $W_{i-1})$ ,然后用两个数分别除以语料库的大小 $\#$ ,即可以得到这些词的二元组的相对频度
$f(W_i,W_{i-1}) = \frac{\# (W_i,W_{i-1})}{\#(W_{i-1})}$

$f(W_{i-1}) = \frac{\# (W_{i-1})}{\#}$

根据大数定理，只要统计量足够，相对频度就等于概率，即
$P(W_i,W_{i-1})\approx f(W_i,W_{i-1}) = \frac{\# (W_i,W_{i-1})}{\#(W_{i-1})}$

$P(W_{i-1}) \approx f(W_{i-1}) = \frac{\# (W_{i-1})}{\#}$

再约去分母
$P(W_i|W_{i-1}) = \frac{P(W_i,W_{i-1}) }{W_{i-1}) }\approx \frac{\# (W_i,W_{i-1})}{\#(W_{i-1})}$

第一章统计语言模型

统计语言模型

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

第一章 统计语言模型

统计语言模型

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

第一章统计语言模型