机器学习 [白板推导]（三）[线性分类]

4. 线性分类

4.1. 线性分类的典型模型

硬分类：输出结果只有0或1这种离散结果；
- 感知机
- 线性判别分析 Fisher
软分类：会输出0-1之间的值作为各个类别的概率；
- 概率生成模型：高斯判别分析GDA、朴素贝叶斯，主要建模的是 $p(\vec{x},y)$
- 概率判别模型：逻辑回归，主要建模的是 $p(y|\vec{x})$

4.2. 感知机

4.2.1. 基本模型

模型：
$\begin{aligned} f(\hat{\vec{x}})=\text{sign}(\hat{\vec{x}}^TW),\\ \text{sign}(a)=\left\{\begin{matrix}1,&a>0\\0,&a=0\\-1,&a<0\end{matrix}.\right.\end{aligned}\tag{4.1}$

思想：错误驱动，先随机初始化一个 $W$ ，研究错误分类的样本来调整。
策略：使用错分类样本计算损失函数：
$\begin{aligned} \mathcal{L}(W)=\sum_{\hat{\vec{x}}_i\in D}-y_i\cdot \hat{\vec{x}}_i^TW\\ D=\{\hat{\vec{x}}_i\}_{f(\hat{\vec{x}}_i)\neq y_i}. \end{aligned}\tag{4.2}$

4.3. 线性判别分析 Fisher

4.3.1. 问题定义

对于一个二分类问题，将样本分为 $X_{c_1}=\left \{ \hat{\vec{x}}_i|y_i=+1 \right \}$ 和 $X_{c_2}=\left \{ \hat{\vec{x}}_i|y_i=-1 \right \}$ ，这两组的样本数分别为 $N_1$ 和 $N_2$ ， $N_1+N_2=N$ .
寻找一个投影超平面 $W$ ，使所有样本点在这个平面的投影可以做到类内间距小，类间间距大。

4.3.2. 过程推导

样本 $\hat{\vec{x}}_i$ 在超平面 $W$ 上的投影可以表示为 $z=\hat{\vec{x}}^T\cdot W$ ，则对其求均值和方差：
$\begin{aligned} \bar{z}&=\frac{1}{N}\sum_{i=1}^Nz_i=\frac{1}{N}\sum_{i=1}^N\hat{\vec{x}}_i^T\cdot W\\ S_z&=\frac{1}{N}\sum_{i=1}^N(z_i-\bar{z})^2=\frac{1}{N}\sum_{i=1}^N(\hat{\vec{x}}_i^T\cdot W-\bar{z})^2. \end{aligned}\tag{4.3}$

基于上式分别对两类样本计算均值 $\bar{z}_1$ 和 $\bar{z}_2$ ，以及方差 $S_{z_1}$ 和 $S_{z_2}$ . 为了尽可能类内间距小，类间间距大，将目标函数定义为
$\mathcal{J}(W)=\frac{(\bar{z}_1-\bar{z}_2)^2}{S_{z_1}+S_{z_2}},\tag{4.4}$

则模型转为优化问题：
$W=\argmax_W\mathcal{J}(W),\tag{4.5}$

对目标函数进行化简：
$\begin{aligned} (\bar{z}_1-\bar{z}_2)^2&=(\frac{1}{N_1}\sum_{i=1}^{N_1}\hat{\vec{x}}_i^T\cdot W-\frac{1}{N_2}\sum_{i=1}^{N_2}\hat{\vec{x}}_i^T\cdot W)^2\\ &=[(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW]^2\\ &=W^T(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW \end{aligned}\tag{4.6}$

$\begin{aligned}S_{z_1}&=\frac{1}{N_1}\sum_{i=1}^{N_1}(\hat{\vec{x}}_i^T\cdot W-\bar{z}_1)^2\\&=\frac{1}{N_1}\sum_{i=1}^{N_1}W^T(\vec{x}_i-\bar{\vec{x}}_{C_1})(\vec{x}_i-\bar{\vec{x}}_{C_1})^TW\\ & =W^T\left [\frac{1}{N_1}\sum_{i=1}^{N_1}(\vec{x}_i-\bar{\vec{x}}_{C_1})(\vec{x}_i-\bar{\vec{x}}_{C_1})^T \right ]W\\ &=W^TS_{C_1}W,\end{aligned}\tag{4.7}$

同理可得 $S_{z_2}=W^TS_{C_2}W$ . 所以目标函数化为
$\begin{aligned} \mathcal{J}(W)&=\frac{(\bar{z}_1-\bar{z}_2)^2}{S_{z_1}+S_{z_2}}\\&=\frac{W^T(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW}{W^T(S_{C_1}+S_{C_2})W} \end{aligned}\tag{4.8}$

再定义总类内方差 $S_w$ 和总类间方差 $S_b$ ：
$\begin{aligned} S_w&=S_{C_1}+S_{C_2}\\ S_b&=(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^T \end{aligned}\tag{4.9}$

因此目标函数被表示为：
$\mathcal{J}(W)=\frac{W^TS_bW}{W^TS_wW},\tag{4.10}$

对目标函数求导得：
$\begin{aligned}\frac{\partial \mathcal{J}(W)}{\partial W}&=2S_bW(W^TS_wW)^{-1}+\\&W^TS_bW\cdot(-1)\cdot (W^TS_wW)^{-2}\cdot2S_wW,\end{aligned}\tag{4.11}$

令其为0可得
$\begin{aligned}W&=\frac{W^TS_wW}{W^TS_bW}S_w^{-1}S_bW\\&=\frac{W^TS_wW}{W^TS_bW}S_w^{-1}(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW\\&=\frac{W^TS_wW\cdot (\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2})^TW}{W^TS_bW}S_w^{-1}(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2}) ,\end{aligned}\tag{4.12}$

因为 $W$ 是一个单位向量，所以我们只关心其方向而不关心其长度，所以最终得到：
$\begin{aligned}W\propto S_w^{-1}(\bar{\vec{x}}_{C_1}-\bar{\vec{x}}_{C_2}). \end{aligned}\tag{4.13}$

4.4. 逻辑回归

4.4.1. 基本思想

在线性回归中引入非线性激活函数，使其可以将回归结果映射为概率值，作为类别的概率。因此将这个模型看做一个条件概率分布的建模，输入 $\hat{\vec{x}}$ ，通过建模 $p(y|\hat{\vec{x}})$ ，输出 $y$ 的离散取值；

4.4.2. Sigmoid 激活函数

基本公式：
$\sigma (z)=\frac{1}{1+e^{-z}}\tag{4.14}$

特殊取值：

$z\rightarrow -\infty$ 时， $\lim \sigma (z)=0$ ；
$z = 0$ 时， $\sigma(z)=\frac{1}{2}$ ；
$z\rightarrow \infty$ 时， $\lim \sigma (z)=1$ .

函数图像：
在这里插入图片描述

4.4.3. 模型推导

根据条件概率建模的思想：
$\begin{aligned} p_1&=p(y=1|\hat{\vec{x}})=\sigma(\hat{\vec{x}}^TW)= \frac{1}{1+e^{-\hat{\vec{x}}^TW}}\\ p_0&=p(y=0|\hat{\vec{x}})=1-\sigma(\hat{\vec{x}}^TW)= \frac{e^{-\hat{\vec{x}}^TW}}{1+e^{-\hat{\vec{x}}^TW}}, \end{aligned}\tag{4.15}$

因此将整个模型写作
$p(y|x)=p_1^y\cdot p_0^{1-y},\tag{4.16}$

当 $y = 0$ 时， $p=p_0$ ，当 $y = 1$ 时， $p=p_1$ .

用极大似然估计法求解模型：
$\begin{aligned} \hat{W}&=\argmax_W\log p(Y|X)\\ &=\argmax_W\sum_{i=1}^N\left [ y_i\cdot \log\sigma(\hat{\vec{x}}^TW)+(1-y_i)\cdot \log(1-\sigma(\hat{\vec{x}}^TW)) \right ], \end{aligned}\tag{4.17}$

对其求梯度得
$\begin{aligned} \bigtriangledown \text{grad}_W &=\sum_{i=1}^N \left [y_i\cdot (1-\sigma(\hat{\vec{x}}^TW))\cdot\hat{\vec{x}} - (1-y_i)\cdot \sigma(\hat{\vec{x}}^TW)\cdot\hat{\vec{x}} \right ]\\ &=\sum_{i=1}^N \left [y_i-\sigma(\hat{\vec{x}}^TW) \right ]\cdot\hat{\vec{x}}, \end{aligned}\tag{4.18}$

即可对模型进行迭代更新。

4.5. 高斯判别分析

4.5.1. 概率判别式模型与概率生成式模型的区别

概率判别式模型主要计算条件概率密度 $p(y|\vec{x})$ ，取令该概率最大的 $y$ 为分类结果；
概率生成式模型并不需要计算具体的 $p(y|\vec{x})$ 值，而是直接思考 $p(y=1|\vec{x})$ 和 $p(y=0|\vec{x})$ 的结果谁更大，根据贝叶斯公式 $p(y|\vec{x}) = \frac{p(\vec{x}|y)\cdot p(y)}{p(\vec{x})}$ ，将目标函数变为：
$\begin{aligned} \hat{y}&=\argmax_y p(y|\vec{x})\\&=\argmax_y p(\vec{x}|y)\cdot p(y), \end{aligned}\tag{4.19}$

其中若 $p(y=1)=\phi$ ，则 $p(y=0)=1-\phi$ ，可以将 $p (y)$ 合并为 $p(y)=\phi ^y\cdot (1-\phi)^{1-y}$ .

4.5.2. 高斯概率假设

在高斯判别模型中，假设条件分布是遵从高斯概率分布的，即：
$\begin{aligned} \vec{x}|y&=0\sim N(\mu_1, \Sigma)\\ \vec{x}|y&=1\sim N(\mu_2, \Sigma), \end{aligned}\tag{4.20}$

使用对数似然求解目标函数，可得
$\begin{aligned} \mathcal{L}(\theta)&=\log\prod_{i=1}^N p(\vec{x}_i,y_i)\\ &=\sum _{i=1}^N\left [\log p(\vec{x}_i|y_i)+\log p(y_i) \right ] \\ &=\sum _{i=1}^N\left \{ y_i\cdot \left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right )-\frac{p}{2}\log2\pi--\frac{1}{2}\log|\Sigma| \right ]+\right.\\ &\left (1-y_i \right )\cdot \left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_2 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_2 \right )-\frac{p}{2}\log2\pi--\frac{1}{2}\log|\Sigma| \right ] +\\&\left.y_i \cdot\log\phi + (1-y_i)\cdot\log(1-\phi)\right \} . \end{aligned}\tag{4.21}$

4.5.3. 求解模型

首先求解参数 $\phi$ ，对目标函数求偏导：
$\begin{aligned} \frac{\partial L(\theta)}{\partial \phi}=\sum_{i=1}^N\left (\frac{y_i}{\phi}-\frac{1-y_i}{1-\phi} \right ) , \end{aligned}\tag{4.22}$

令其为0，求得
$\hat{\phi}=\frac{1}{N}\sum_{i=1}^{N}y_i,\tag{4.23}$

也就是样本中各个标签出现的频率即为最优概率值。

再求解参数 $\vec{\mu}_1$ ，由于其他和 $\vec{\mu}_1$ 无关的部分求偏导后都得0，所以从目标函数中单独取出和相关的部分，即
$\begin{aligned} \hat{\vec{\mu}}_1&=\argmax_{\vec{\mu}_1}\sum_{i=1}^Ny_i\cdot \left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right ) \right ]\\ &=\argmax_{\vec{\mu}_1}\sum_{\vec{x_i}\in C_1}\left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right ) \right ], \end{aligned}\tag{4.22}$

其中 $C_1=\left \{ \vec{x}_i\right \}_{y_i=1}$ ，因此求解方法等同于高维高斯分布的极大似然估计（见另一篇笔记机器学习[白板推导]（一）第2.2.2.节），结果为
$\begin{aligned} \hat{\vec{\mu}}_1&=\frac{\sum_{i=1}^Ny_i\cdot \vec{x}_i}{N_1}=\frac{\sum_{\vec{x}_i\in C_1}\vec{x}_i}{N_1}\\ \hat{\vec{\mu}}_2&=\frac{\sum_{i=1}^N\left (1-y_i \right )\cdot \vec{x}_i}{N_2}=\frac{\sum_{\vec{x}_i\in C_2}\vec{x}_i}{N_2}, \end{aligned}\tag{4.23}$

最后求 $\Sigma$ ，同样取出目标函数中和其相关的部分，得：
$\begin{aligned} \hat{\Sigma}=&\argmax_{\Sigma}\sum_{\vec{x}_i\in C_1}\left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_1 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_1 \right ) \right ]\\ &+\sum_{\vec{x}_i\in C_2}\left [-\frac{1}{2}\left (\vec{x}_i-\vec{\mu}_2 \right )^T\Sigma^{-1} \left(\vec{x}_i-\vec{\mu}_2 \right ) \right ] - \frac{N}{2}\log |\Sigma| , \end{aligned}\tag{4.24}$

对其求偏导得
$\begin{aligned} \frac{d\mathcal{L}(\theta)}{d\Sigma} &=-\frac{N}{2}\Sigma ^{-1}+\frac{1}{2}\sum_{\vec{x}_i\in C_1}\Sigma^{-1}(\vec{x}_i-\vec{\mu}_1)(\vec{x}_i-\vec{\mu}_1)^T\Sigma^{-1}\\ &+\frac{1}{2}\sum_{\vec{x}_i\in C_2}\Sigma^{-1}(\vec{x}_i-\vec{\mu}_2)(\vec{x}_i-\vec{\mu}_2)^T\Sigma^{-1} , \end{aligned}\tag{4.25}$

令其为0得
$\begin{aligned} \hat{\Sigma} &=\frac{1}{N}\left [\sum_{\vec{x}_i\in C_1}(\vec{x}_i-\vec{\mu}_1)(\vec{x}_i-\vec{\mu}_1)^T+\sum_{\vec{x}_i\in C_2}(\vec{x}_i-\vec{\mu}_2)(\vec{x}_i-\vec{\mu}_2)^T \right ]\\ &=\frac{N_1\cdot S_1+N_2\cdot S_2}{N} , \end{aligned}\tag{4.26}$

其中 $S_1$ 和 $S_2$ 分别为两个类内样本方差。

4.6. 朴素贝叶斯（Naive Bayes Classifier）

4.6.1. 基本思想

所有朴素贝叶斯家族的算法都是基于朴素贝叶斯假设，又叫条件随机场假设，即假设各个特征之间相互独立。朴素贝叶斯模型是最简单的概率图模型，模型方法和高斯判别分析较为接近，这里不做重复。

机器学习 [白板推导]（三）[线性分类]

4. 线性分类

4.1. 线性分类的典型模型

4.2. 感知机

4.2.1. 基本模型

4.3. 线性判别分析 Fisher

4.3.1. 问题定义

4.3.2. 过程推导

4.4. 逻辑回归

4.4.1. 基本思想

4.4.2. Sigmoid 激活函数

4.4.3. 模型推导

4.5. 高斯判别分析

4.5.1. 概率判别式模型与概率生成式模型的区别

4.5.2. 高斯概率假设

4.5.3. 求解模型

4.6. 朴素贝叶斯（Naive Bayes Classifier）

4.6.1. 基本思想

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

机器学习 [白板推导]（三）[线性分类]

4. 线性分类

4.1. 线性分类的典型模型

4.2. 感知机

4.2.1. 基本模型

4.3. 线性判别分析 Fisher

4.3.1. 问题定义

4.3.2. 过程推导

4.4. 逻辑回归

4.4.1. 基本思想

4.4.2. Sigmoid 激活函数

4.4.3. 模型推导

4.5. 高斯判别分析

4.5.1. 概率判别式模型与概率生成式模型的区别

4.5.2. 高斯概率假设

4.5.3. 求解模型

4.6. 朴素贝叶斯 （Naive Bayes Classifier）

4.6.1. 基本思想

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

4.6. 朴素贝叶斯（Naive Bayes Classifier）