频率派和贝叶斯派是对概率诠释的两大学派。
首先假设有N个样本组成X。每个样本xi是p维向量,每个观测都由p(x|)生成。
一、频率派
频率派认为参数是一个未知常量,X是随机变量,假设xi之间独立同分布(iid independent and identically distributed)【每个随机变量的取值都不依赖于其他随机变量的取值且所有随机变量都服从相同的概率分布】
那么
似然函数:对于不同的模型参数,出现xi的概率是多少
采用最大对数似然MLE的方法求得【将连乘转化成连加】
应用:一系列的统计机器学习算法
应用步骤(最优化理论):1、建立模型。2、定义损失函数。3、最优化损失函数。
二、贝叶斯派
贝叶斯派认为参数不是一个未知常量,而是随机变量。这个
满足一个预设的先验分布。
根据贝叶斯定理:
其中后验概率:在观察到新数据之后,对事件发生概率的更新估计
先验概率:基于已有经验或知识对事件发生概率的初始估计
最大化参数后验,可以省略上式中的分母,因为分母和参数无关。
得到后验分布后可以将分布用于预测贝叶斯预测
应用:概率图模型
三、二者的联系
假设先验分布是均匀分布,取后验概率最大,就从贝叶斯估计转化成了极大似然估计。
参考
(系列一) 绪论-频率派vs贝叶斯派_哔哩哔哩_bilibili