欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 资讯 > ReliefF 的原理

ReliefF 的原理

2025/4/19 8:39:04 来源:https://blog.csdn.net/qlkaicx/article/details/147196149  浏览:    关键词:ReliefF 的原理

🌟 ReliefF 是什么?

ReliefF 是一种“基于邻居差异”的特征选择方法,用来评估每个特征对分类任务的贡献大小。

它的核心问题是:

“我怎么知道某个特征是不是重要?是不是有能力把不同类别的数据区分开?”

而 ReliefF 的思路是:

“我拿一个样本,看看它和同类样本在特征上是否接近,和异类样本是否远离。如果某个特征能保持‘同类接近、异类远离’,那这个特征就重要!”


✅ 用生活例子解释一下

假如你想根据一堆人的特征(如身高、体重、发色、学历等)来判断他们是否是“运动员”,现在你想知道哪个特征最有用。

假设场景:

  • 你随机选中一个人小张,他是个运动员;
  • 你找到一个离他最像的非运动员(比如小李),再找一个最像的运动员(小王);
  • 比较小张和小王、小李在每个特征上的差别:
    • 如果“身高”在小张和小王之间很接近、而和小李差很多,就说明“身高”可能是个好特征;
    • 如果“发色”在三人之间都差不多,那“发色”可能没啥用。

🧠 原理分解(逐步详解)

❶ 目标:

计算每个特征 A A A 的一个权重分数 W [ A ] W[A] W[A],表示该特征的区分能力。


❷ 基本流程:

假设你有 m m m 个样本、 d d d 个特征:

  1. 初始化所有特征的权重为 0
  2. 重复 N N N 次(采样 N N N 个样本):
    1. 随机选一个样本 x i x_i xi
    2. 找到:
      • 最近的同类样本(Hit)
      • 最近的异类样本(Miss)
    3. 对每个特征 A A A
      • 减去 x i x_i xi 与 Hit 的特征差异(越像越好,差异越小越重要)
      • 加上 x i x_i xi 与 Miss 的特征差异(越不像越好,差异越大越重要)

公式是这样的(简化写法):
W [ A ] = W [ A ] − diff ( A , x i , Hit ) + diff ( A , x i , Miss ) W[A] = W[A] - \text{diff}(A, x_i, \text{Hit}) + \text{diff}(A, x_i, \text{Miss}) W[A]=W[A]diff(A,xi,Hit)+diff(A,xi,Miss)

最终, W [ A ] W[A] W[A] 越大的特征,越有能力帮助分类。


❸ diff 怎么算?

对于一个特征 A A A 和两个样本 x i x_i xi, x j x_j xj

  • 如果 A A A 是连续型特征:
    diff ( A , x i , x j ) = ∣ x i [ A ] − x j [ A ] ∣ max ( A ) − min ( A ) \text{diff}(A, x_i, x_j) = \frac{|x_i[A] - x_j[A]|}{\text{max}(A) - \text{min}(A)} diff(A,xi,xj)=max(A)min(A)xi[A]xj[A]
  • 如果 A A A 是离散型特征:
    diff ( A , x i , x j ) = { 1 , 若  x i [ A ] ≠ x j [ A ] 0 , 若  x i [ A ] = x j [ A ] \text{diff}(A, x_i, x_j) = \begin{cases} 1, & \text{若 } x_i[A] \ne x_j[A] \\ 0, & \text{若 } x_i[A] = x_j[A] \end{cases} diff(A,xi,xj)={1,0, xi[A]=xj[A] xi[A]=xj[A]

🧠 那 ReliefF 比原版 Relief 好在哪?

ReliefF 是对原始 Relief 的扩展,它有几个改进点:

原版 ReliefReliefF 改进点
只能处理二分类问题支持多分类
只找一个 Hit 和 Miss可以找多个(k 个)Hit 和 Miss,平均效果更稳定
对噪声敏感多邻居平均后更鲁棒
不能处理缺失值ReliefF 支持缺失值插补

✅ 总结一句话:

ReliefF 本质上是用“邻居之间的特征差异”来衡量一个特征的重要性:
如果同类越像、异类越不像,就说明这个特征越有区分能力,权重越高。


版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词