欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 创投人物 > 2025-04-05 吴恩达机器学习4——逻辑回归(1):基础入门

2025-04-05 吴恩达机器学习4——逻辑回归(1):基础入门

2025/4/19 16:31:02 来源:https://blog.csdn.net/zheliku/article/details/147014422  浏览:    关键词:2025-04-05 吴恩达机器学习4——逻辑回归(1):基础入门

文章目录

  • 1 分类问题
    • 1.1 介绍
    • 1.2 线性回归与分类
    • 1.2 逻辑回归
  • 2 逻辑回归
    • 2.1 介绍
    • 2.2 Sigmoid 函数
    • 2.3 逻辑回归模型
  • 3 决策边界
    • 3.1 概念
    • 3.2 线性决策边界
    • 3.3 非线性决策边界
  • 4 代价函数
    • 4.1 不使用平方误差
    • 4.2 损失函数
    • 4.3 整体代价函数
  • 5 梯度下降
    • 5.1 参数更新
    • 5.2 逻辑回归 vs. 线性回归

1 分类问题

1.1 介绍

  1. 定义:预测离散的输出值(类别),而非连续数值。

  2. 二元分类:输出仅有两个可能值(如 0/1、否/是、假/真)。

    • 正类(Positive Class):目标类别(如垃圾邮件、恶性肿瘤),标记为 1。
    • 负类(Negative Class):非目标类别(如正常邮件、良性肿瘤),标记为 0。
  3. 示例应用:

    • 垃圾邮件检测(是/否)
    • 金融欺诈识别(欺诈/正常)
    • 肿瘤分类(恶性/良性)
image-20250405164804493

1.2 线性回归与分类

Question:为什么线性回归不适用于分类?

  • 解释 1:输出可能超出 [0,1] 范围(如预测值 >1 或 <0),但类别标签只能是 0 或 1。
  • 解释 2:添加极端数据点会显著改变拟合直线,导致分类阈值(如 0.5)偏移,影响预测结果。

​ 示例:新增一个大型恶性肿瘤样本后,线性回归的决策边界右移,可能错误分类原有数据。

image-20250405164946281

1.2 逻辑回归

  1. 核心思想:输出始终限制在 [0,1] 之间,表示概率。
  2. 名称澄清:虽含“回归”,实为分类算法(历史命名原因)。
  3. 优势:
    • 直接建模概率 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x)
    • 避免线性回归的分类缺陷。

决策边界(Decision Boundary)

​ 划分类别的阈值(如 0.5),由模型自动学习。线性回归的决策边界是直线,但可能不稳定。逻辑回归通过非线性函数(如 Sigmoid)生成更鲁棒的边界。

2 逻辑回归

2.1 介绍

  • 核心思想:输出始终限制在 [0,1] 之间,表示概率。
  • 用途:解决二元分类问题(输出 y ∈ 0 , 1 y ∈ {0,1} y0,1)。
  • 输出特性:模型输出 f ( x ) f(x) f(x) 表示 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x)(即 y = 1 y=1 y=1 的概率),范围严格在 [0,1] 之间。

​ 示例:肿瘤大小为 x x x 时, f ( x ) = 0.7 f(x)=0.7 f(x)=0.7 表示恶性肿瘤概率为 70%,良性概率为 30%(因为 P ( y = 0 ∣ x ) = 1 − P ( y = 1 ∣ x ) ) P(y=0|x) = 1 - P(y=1|x)) P(y=0∣x)=1P(y=1∣x)

image-20250405180337495

名称澄清

​ 逻辑回归虽含“回归”,不是回归,而是分类算法(历史命名原因)。

​ 核心是通过 Sigmoid 函数实现概率建模。

2.2 Sigmoid 函数

​ Sigmoid 函数:
g ( z ) = 1 1 + e − z g(z)=\frac{1}{1+e^{-z}} g(z)=1+ez1

  • z z z 为线性函数: z = w ⋅ x + b z = w·x + b z=wx+b w w w:权重, b b b:偏置)。
  • e e e 是自然常数(≈ 2.718), e − z e^{-z} ez z z z 增大趋近于 0。
image-20250405180419612

函数特性:

  • z → + ∞ z → +∞ z+ g ( z ) → 1 g(z) → 1 g(z)1;当 z → − ∞ z → -∞ z g ( z ) → 0 g(z) → 0 g(z)0
  • z = 0 z=0 z=0 时, g ( z ) = 0.5 g(z)=0.5 g(z)=0.5(对称中心点)。
  • S S S 形曲线:平滑过渡,适合概率建模。

2.3 逻辑回归模型

​ 模型定义:
f ( x ) = g ( w ⋅ x + b ) = 1 1 + e − ( w ⋅ x + b ) f(x)=g(w\cdot x+b)=\frac{1}{1+e^{-(w\cdot x+b)}} f(x)=g(wx+b)=1+e(wx+b)1

​ 输入 x x x(如肿瘤大小),输出 f ( x ) f(x) f(x) y = 1 y=1 y=1 的概率。

参数意义:

  • w w w 控制曲线陡峭度(斜率)。
  • b b b 控制曲线左右平移(阈值偏移)。

符号解释:
f ( x ; w , b ) = P ( y = 1 ∣ x ; w , b ) f(x;w,b)=P(y=1∣x;w,b) f(x;w,b)=P(y=1x;w,b)

  • 分号 ; 表示 w , b w,b w,b 是模型参数。
  • x x x 是输入特征。
image-20250405180446534

3 决策边界

3.1 概念

  1. 定义:将特征空间划分为不同预测类别的分界线(如 ŷ=0 和 ŷ=1 的区域)。

  2. 数学条件:

    • 预测 ŷ=1 当且仅当 z = w·x + b ≥ 0(即 f(x) = g(z) ≥ 0.5)。
    • 预测 ŷ=0 当 z < 0(f(x) < 0.5)。
  3. 关键点:决策边界是 z = 0 的等高线(如直线、曲线等)。

image-20250405181215637

3.2 线性决策边界

示例:二特征模型( x 1 , x 2 x_1, x_2 x1,x2

image-20250405181251643

​ 参数: w 1 = 1 , w 2 = 1 , b = − 3 w_1=1, w_2=1, b=-3 w1=1,w2=1,b=3 -> z = x 1 + x 2 − 3 z = x_1 + x_2 - 3 z=x1+x23

  • 决策边界方程: x 1 + x 2 = 3 x_1 + x_2 = 3 x1+x2=3(一条直线)
  • 预测规则:
    • 直线右侧( x 1 + x 2 ≥ 3 x_1 + x_2 ≥ 3 x1+x23-> y ^ = 1 ŷ=1 y^=1
    • 直线左侧( x 1 + x 2 < 3 x_1 + x_2 < 3 x1+x2<3-> y ^ = 0 ŷ=0 y^=0

3.3 非线性决策边界

​ 多项式特征:通过高阶项实现复杂边界(如圆形、椭圆等)。

示例 1(圆形边界)
z = x 1 2 + x 2 2 − 1 z = x_1^2 + x_2^2 - 1 z=x12+x221 -> 决策边界为 x 1 2 + x 2 2 = 1 x_1^2 + x_2^2 = 1 x12+x22=1(单位圆)。

  • 圆外: y ^ = 1 ŷ=1 y^=1
  • 圆内: y ^ = 0 ŷ=0 y^=0
image-20250405181745360

示例 2(复杂边界)
引入交叉项和高阶项(如 x 1 x 2 , x 1 2 , x 2 2 x_1x_2, x_1^2, x_2^2 x1x2,x12,x22)可生成椭圆、双曲线等形状。

image-20250405181808569

4 代价函数

4.1 不使用平方误差

​ 线性回归代价函数为
J ( w , b ) = 1 2 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) 2 J(w,b) = \frac{1}{2m}\sum_{i=1}^m (f_{w,b}(x^{(i)}) - y^{(i)})^2 J(w,b)=2m1i=1m(fw,b(x(i))y(i))2
​ 逻辑回归直接套用,会面临的问题:

  • 由于 Sigmoid 非线性变换,代价函数变为非凸函数
  • 梯度下降易陷入局部极小值。
image-20250405182246293

4.2 损失函数

​ 损失函数(Loss Function)定义如下
L ( f w , b ( x ) , y ) = { − log ⁡ ( f w , b ( x ) ) i f y = 1 − log ⁡ ( 1 − f w , b ( x ) ) i f y = 0 L(f_{w,b}(x), y) = \begin{cases} -\log(f_{w,b}(x)) & if \ \ y=1 \\ -\log(1 - f_{w,b}(x)) & if \ \ y=0 \end{cases} L(fw,b(x),y)={log(fw,b(x))log(1fw,b(x))if  y=1if  y=0

  • y = 1 y=1 y=1 时:

    • 预测值 f ( x ) → 1 f(x)→1 f(x)1:损失 → 0 →0 0(正确)
    • 预测值 f ( x ) → 0 f(x)→0 f(x)0:损失 → + ∞ →+∞ +(严重惩罚)

    示例:预测恶性肿瘤概率为 0.1(实际为1)时损失极高。

  • y = 0 y=0 y=0 时:

    • 预测值 f ( x ) → 0 f(x)→0 f(x)0:损失 → 0 →0 0
    • 预测值 f ( x ) → 1 f(x)→1 f(x)1:损失 → + ∞ →+∞ +
image-20250405182902228 image-20250405183134961

合并形式
L ( f w , b ( x ) , y ) = − y log ⁡ ( f w , b ( x ) ) − ( 1 − y ) log ⁡ ( 1 − f w , b ( x ) ) L(f_{w,b}(x), y) = -y\log(f_{w,b}(x)) - (1-y)\log(1-f_{w,b}(x)) L(fw,b(x),y)=ylog(fw,b(x))(1y)log(1fw,b(x))

  • y = 1 y=1 y=1:第二项消失,保留第一项 − log ⁡ ( f ( x ) ) −\log(f(x)) log(f(x))
  • y = 0 y=0 y=0:第一项消失,保留第二项 − log ⁡ ( 1 − f ( x ) ) −\log(1−f(x)) log(1f(x))
image-20250405183550805

4.3 整体代价函数

​ 代价函数(Cost Function)是损失函数的平均值:
J ( w , b ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ ( f w , b ( x ( i ) ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − f w , b ( x ( i ) ) ) ] J(w,b) = -\frac{1}{m}\sum_{i=1}^m \left[ y^{(i)}\log(f_{w,b}(x^{(i)})) + (1-y^{(i)})\log(1-f_{w,b}(x^{(i)})) \right] J(w,b)=m1i=1m[y(i)log(fw,b(x(i)))+(1y(i))log(1fw,b(x(i)))]
image-20250405184143167

特性

  1. 凸函数:保证梯度下降收敛到全局最优。
  2. 概率解释:本质是极大似然估计的负对数形式。
  3. 数学性质:
    • y = 1 y=1 y=1 J → 0 J→0 J0 当且仅当 f ( x ) → 1 f(x)→1 f(x)1
    • y = 0 y=0 y=0 J → 0 J→0 J0 当且仅当 f ( x ) → 0 f(x)→0 f(x)0

5 梯度下降

​ 目标:找到参数 w w w b b b,使得成本函数 J ( w , b ) J(w, b) J(w,b) 最小化。

​ 通过梯度下降法迭代更新参数。

5.1 参数更新

​ 更新规则如下:
w j : = w j − α ∂ ∂ w j J ( w , b ) b : = b − α ∂ ∂ b J ( w , b ) \begin{aligned} w_j &:= w_j - \alpha \frac{\partial }{\partial w_j}J(w,b) \\ b &:= b - \alpha \frac{\partial }{\partial b}J(w,b) \end{aligned} wjb:=wjαwjJ(w,b):=bαbJ(w,b)

​ 将 J ( w , b ) J(w, b) J(w,b) 带入得到:
w j : = w j − α [ 1 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) x j ( i ) ] b : = b − α [ 1 m ∑ i = 1 m ( f w , b ( x ( i ) ) − y ( i ) ) ] \begin{aligned} w_j &:= w_j - \alpha \left[\frac1m\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})x_j^{(i)}\right] \\ b &:= b - \alpha \left[\frac1m\sum_{i=1}^m(f_{w,b}(x^{(i)})-y^{(i)})\right] \end{aligned} wjb:=wjα[m1i=1m(fw,b(x(i))y(i))xj(i)]:=bα[m1i=1m(fw,b(x(i))y(i))]

​ 先计算所有参数的更新值,再同时更新所有参数。

5.2 逻辑回归 vs. 线性回归

线性回归逻辑回归
预测函数 f ( x ) f(x) f(x) w ⋅ x + b w\cdot x+b wx+b Sigmoid ( w ⋅ x + b ) \text{Sigmoid}(w\cdot x+b) Sigmoid(wx+b)
成本函数均方误差对数损失 (凸函数)
梯度下降公式形式相同形式相同但 f ( x ) f(x) f(x)不同
image-20250405185448170

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词