欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 教育 > 培训 > 经典核密度估计(Kernel Density Estimation):从直觉到数学

经典核密度估计(Kernel Density Estimation):从直觉到数学

2025/4/19 18:52:03 来源:https://blog.csdn.net/shizheng_Li/article/details/146103899  浏览:    关键词:经典核密度估计(Kernel Density Estimation):从直觉到数学

经典核密度估计(Kernel Density Estimation):从直觉到数学

作为一名在大模型时代进入深度学习领域的研究者,你可能对 Transformer、扩散模型等现代技术驾轻就熟。然而,在阅读一些生成模型的文献(如 Explicit Score-Matching)时,你可能会遇到一些“古典”概念,比如“经典核密度估计”(Classical Kernel Density Estimation, KDE)。这个方法虽然看似古老,但在理解概率分布估计和生成模型(如 Score-Matching 和扩散模型)的理论基础时非常重要。本篇博客将面向具有大模型理论基础的研究者,介绍核密度估计的直觉、数学定义及其在现代深度学习中的意义,帮助你快速补齐这一知识点。

什么是核密度估计?

核密度估计是一种非参数的概率密度估计方法,用于从有限的数据样本中估计数据的概率密度函数 ( p ( x ) p(x) p(x) )。在深度学习中,我们通常假设数据分布是某种已知形式(比如高斯分布),然后用神经网络去拟合参数。但在现实中,真实数据分布 ( p ( x ) p(x) p(x) ) 往往是未知且复杂的。KDE 的目标就是不假设分布的具体形式,而是直接从数据样本中“平滑”地构建一个近似分布。

假设我们有一个数据集 ( X = { x ( 1 ) , x ( 2 ) , … , x ( M ) } X = \{x^{(1)}, x^{(2)}, \dots, x^{(M)}\} X={x(1),x(2),,x(M)} ),包含 ( M M M ) 个样本。KDE 定义了一个分布 ( q h ( x ) q_h(x) qh(x) ) 来近似真实分布 ( p ( x ) p(x) p(x) ):
q h ( x ) = 1 M ∑ m = 1 M 1 h K ( x − x ( m ) h ) q_h(x) = \frac{1}{M} \sum_{m=1}^M \frac{1}{h} K\left( \frac{x - x^{(m)}}{h} \right) qh(x)=M1m=1Mh1K(hxx(m))
其中:

  • ( K ( ⋅ ) K(\cdot) K() ) 是核函数(Kernel Function),通常是一个对称的概率密度函数(如高斯核)。
  • ( h ) 是带宽(Bandwidth),一个超参数,控制平滑程度。
  • ( x ( m ) x^{(m)} x(m) ) 是第 ( m m m ) 个训练样本。
直觉理解

想象你有一堆离散的数据点(比如 ( x ( 1 ) , x ( 2 ) , … x^{(1)}, x^{(2)}, \dots x(1),x(2), )),你想估计这些点背后的连续分布。一种简单的方法是用直方图,但直方图的问题是它依赖于分箱的选择,结果可能不平滑。KDE 的思路是为每个数据点 ( x ( m ) x^{(m)} x(m) ) 放置一个“核”(一个小的概率密度函数),然后把所有核加起来,得到一个平滑的整体分布。

  • 核函数 ( K ( ⋅ ) K(\cdot) K() ):可以看作是一个“模板”,决定了每个数据点对周围区域的贡献。例如,高斯核 ( K ( u ) = 1 2 π e − u 2 2 K(u) = \frac{1}{\sqrt{2\pi}} e^{-\frac{u^2}{2}} K(u)=2π 1e2u2 ) 会生成一个钟形曲线。
  • 带宽 ( h h h ):控制核的宽度。( h h h ) 越大,核越宽,分布越平滑;( h h h ) 越小,核越窄,分布更贴近数据点。

用一个比喻来说,KDE 就像在每个数据点上放一个“水滴”,水滴的大小由 ( h h h ) 决定,所有水滴叠加后形成一个平滑的“水面”,这就是 ( q h ( x ) q_h(x) qh(x) )。

数学推导与形式化

让我们更正式地理解 KDE。假设核函数 ( K ( u ) K(u) K(u) ) 满足:
∫ K ( u ) d u = 1 , ∫ u K ( u ) d u = 0 , ∫ u 2 K ( u ) d u < ∞ \int K(u) \, du = 1, \quad \int u K(u) \, du = 0, \quad \int u^2 K(u) \, du < \infty K(u)du=1,uK(u)du=0,u2K(u)du<
这保证了 ( K ( ⋅ ) K(\cdot) K()) 是一个有效的概率密度函数,且对称(均值为 0)。

对于每个样本 ( x ( m ) x^{(m)} x(m) ),项 ( 1 h K ( x − x ( m ) h ) \frac{1}{h} K\left( \frac{x - x^{(m)}}{h} \right) h1K(hxx(m))) 是一个以 ( x ( m ) x^{(m)} x(m) ) 为中心的缩放核,缩放因子 ( 1 h \frac{1}{h} h1 ) 确保其积分为 1:
∫ 1 h K ( x − x ( m ) h ) d x = ∫ K ( u ) d u = 1 \int \frac{1}{h} K\left( \frac{x - x^{(m)}}{h} \right) \, dx = \int K(u) \, du = 1 h1K(hxx(m))dx=K(u)du=1
因此,( q h ( x ) = 1 M ∑ m = 1 M 1 h K ( x − x ( m ) h ) q_h(x) = \frac{1}{M} \sum_{m=1}^M \frac{1}{h} K\left( \frac{x - x^{(m)}}{h} \right) qh(x)=M1m=1Mh1K(hxx(m)) ) 是一个合法的概率密度函数,满足:
∫ q h ( x ) d x = 1 \int q_h(x) \, dx = 1 qh(x)dx=1

KDE 的可视化
  • 单点贡献:每个 ( 1 h K ( x − x ( m ) h ) \frac{1}{h} K\left( \frac{x - x^{(m)}}{h} \right) h1K(hxx(m)) ) 是一个以 ( x ( m ) x^{(m)} x(m) ) 为中心的平滑“峰”。
  • 整体估计:所有 ( M M M ) 个核的平均值 ( q h ( x ) q_h(x) qh(x) ) 形成一个连续的密度曲线。
  • 直方图对比:相比直方图的阶梯状,KDE 提供了一个平滑的估计,更接近真实分布的形状。
在深度学习中的意义

作为大模型研究者,你可能好奇 KDE 为什么会在现代生成模型(如 Score-Matching 或扩散模型)中出现。以下是它与你熟悉的领域之间的联系:

  1. 分布近似
    在 Score-Matching 中,我们需要估计数据分布 ( p ( x ) p(x) p(x) ) 的梯度(即分数函数 ( ∇ x log ⁡ p ( x ) \nabla_x \log p(x) xlogp(x)))。但 ( p ( x ) p(x) p(x) ) 通常未知,KDE 提供了一种基于样本的近似 ( q h ( x ) q_h(x) qh(x) ),可以用作替代目标。

  2. 平滑性
    大模型(如扩散模型)依赖于连续的概率密度假设。KDE 的平滑特性使其成为理论分析和损失函数设计的基础。

  3. 非参数方法
    与深度学习中的参数化分布(如高斯混合模型)不同,KDE 不假设分布形式,这与生成模型追求灵活性的目标一致。

例如,在 Explicit Score-Matching 中,有文献使用 KDE 定义 ( q h ( x ) q_h(x) qh(x) ) 来近似 ( p ( x ) p(x) p(x)),然后基于此训练一个网络 ( s θ ( x ) s_\theta(x) sθ(x) ) 来匹配分数函数。这种方法避免了直接访问真实分布的需求。

优缺点
  • 优点
    • 非参数化,无需假设分布形式。
    • 平滑且直观,易于理解和实现。
  • 缺点
    • 计算复杂度高:对于 ( M M M ) 个样本,评估 ( q h ( x ) q_h(x) qh(x) ) 需要 ( O ( M ) O(M) O(M) ) 次计算。
    • 带宽 ( h h h ) 的选择敏感:( h h h ) 过大导致过平滑,( h h h ) 过小则过拟合。
总结

经典核密度估计是一个从数据样本直接估计概率密度的强大工具,尽管它在深度学习时代显得有些“古典”,但其思想在生成模型的理论基础中仍然发挥作用。对于熟悉大模型的你来说,KDE 可以看作是一种“前神经网络时代”的分布建模方法,它通过核函数的叠加实现了平滑估计。如今,它更多作为理论桥梁,帮助我们理解从数据到连续分布的转换过程。

后记

2025年3月7日20点04分于上海,在grok 3大模型辅助下完成。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词