正如人们有各种各样的学习方法一样,机器学习也有多种学习方法。若按学习时所用的方法进行分类,则机器学习可分为机械式学习、指导式学习、示例学习、类比学习、解释学习等。这是温斯顿在1977年提出的一种分类方法。
有关机器学习的基本概念,可看我文章:机器学习的基本概念-CSDN博客
有关机械式学习,可看我文章:机器学习之一:机械式学习-CSDN博客
有关指导式学习,可看我文章:机器学习之二:指导式学习-CSDN博客
接下来我们先探讨第三种:归纳学习。
归纳学习是应用归纳推理进行学习的一类学习方法,按其有无教师指导可分为示例学习及观察与发现学习。
一、归纳推理:从特殊到一般的认知引擎
归纳推理是归纳学习的核心逻辑,其本质是通过观察具体实例,提炼普遍规律,实现“从特殊到一般”的知识迁移。王永庆在《人工智能原理与方法》中指出,归纳推理的有效性依赖于“归纳偏置”(Inductive Bias),即学习系统对某种类型假设的偏好。以下是五种核心归纳推理方法的深度解析:
(一)枚举归纳:基于实例频率的泛化
1. 基本思想与形式化
思想:通过枚举多个实例,统计属性出现的频率,进而形成普遍假设。若所有观察到的实例均满足某属性,则推断该属性适用于所有同类个体。
一般化解释:设a1, a2,...是某类事物A中的具体事物,若已知a1, a2, ...,an都有属性P,并且没有发现反例,当n足够大时,就可得出“A中所有事物都有属性P”的结论。这是一种从个别事例归纳出一般性知识的方法,“A中所有事物都有属性P”是通过归纳得到的新知识。
形式化:设实例集合 S = {x_1, x_2, ..., x_n},每个实例具有属性 A,若 ∀x_i∈S, A(x_i) 为真,则归纳假设为 ∀x∈X, A(x),其中 X 是实例所属的全集。
概率强化:引入统计归纳,假设成立的概率为,如大数定律保证当样本量 n→∞ 时,
。
2. 示例:天鹅颜色归纳
流程:
(1)观察实例:发现第1只天鹅是白色(A(x_1) = 白),第2只天鹅是白色(A(x_2) = 白),…,第 n只天鹅是白色(A(x_n) = 白);
(2)统计频率:白色天鹅占比 f = 100\%;
(3)形成假设:所有天鹅都是白色(∀x∈天鹅, A(x) = 白)。
局限:受限于样本多样性,澳大利亚黑天鹅的发现推翻了该假设,体现归纳推理的可错性。
3. 数学基础:归纳一致性
若假设空间H 满足:
其中 P_n(h) 是样本频率,P(h) 是总体概率,则枚举归纳在概率意义上一致收敛。
(二)联想归纳:因果关联的挖掘
1. 基本思想与形式化
思想:通过观察事件间的共现关系,推断它们之间的因果或相关联系。核心是识别属性间的依赖关系,如“吸烟”与“肺癌”的关联。
一般化解释:若已知两个事物a与b有n个属性相似或相同,即:a具有属性P1,b也具有属性P1,a具有属性P2,b也具有属性P2,.....,a具有属性Pn,b也具有属性Pn,并且还发现a具有属性Pn+1,则当n足够大时,可归纳出b也具有属性Pn+1。归纳得到新知识。
形式化: 设事件 A 和 B 的共现次数为 N(A,B),总事件数为 N,则关联度可通过 卡方检验 或 相关系数 度量:
(1)Pearson相关系数:
(2)互信息:
2. 示例:超市购物篮分析
流程:
(1)数据收集:记录顾客购买的商品组合,如(牛奶,面包)、(鸡蛋,牛奶)等;
(2)关联计算:计算支持度 Support(A,B) = P(A∪B),置信度 Confidence(A → B) = P(B|A);
(3)规则生成:若“牛奶→面包”的置信度为 80%,则归纳出购买牛奶的顾客更可能购买面包。
工具:Apriori算法通过逐层搜索频繁项集,高效挖掘关联规则。
3. 因果增强:贝叶斯网络
联想归纳的高级形式是构建贝叶斯网络,用有向无环图表示变量间的因果关系,如:P(A,B,C) = P(A)P(B|A)P(C|A,B) 通过条件概率表量化关联强度,支持因果推理。
(三)类比归纳:相似性驱动的迁移
1. 基本思想与形式化
思想:通过比较两个领域的相似性,将已知领域的知识迁移到未知领域。核心是定义相似度度量 d(x,y),若 x 与 y 相似,则它们的属性也可能相似。
形式化:设源领域实例 x∈X 具有属性 A(x),目标领域实例 y∈Y 与 x 相似(d(x,y) < ϵ),则类比假设为 A(y) 成立。
相似度函数:
(1)欧式距离:
(2)余弦相似度:
2. 示例:药物研发中的类比推理
流程:
(1)源领域:已知药物A对靶点T1有效,且药物A的化学结构为 S_A;
(2)目标领域:药物B的化学结构 S_B 与 S_A 的余弦相似度为0.95;
(3)类比假设:药物B可能对靶点T1有效,需通过实验验证。
强化方法:迁移学习通过微调预训练模型,将图像分类中习得的特征迁移到医学影像分析,本质是类比归纳的算法实现。
3. 数学基础:类比比例
类比比例 a : b :: c : d 表示“a与b的关系类似于c与d的关系”,形式化为:f(a) - f(b) = f(c) - f(d) 其中 f 是属性提取函数,如词嵌入模型中“国王-男人+女人=女王”的类比关系。
(四)逆推理归纳:从结果反推原因
1. 基本思想与形式化
思想:已知结果和因果关系,推断可能的原因。属于“解释性归纳”,如医疗诊断中根据症状推断疾病。
形式化:设因果关系为 E ← H(假设H导致结果E),观察到E发生,逆推H可能为真。基于贝叶斯定理:
其中 P(H|E) 是后验概率,P(E|H) 是似然度,P(H) 是先验概率。
2. 示例:医疗诊断流程
流程:
(1)观察结果:患者出现发热(E1)和咳嗽(E2);
(2)因果知识:流感(H1)会导致发热(概率0.8)和咳嗽(概率0.6),普通感冒(H2)会导致发热(概率0.5)和咳嗽(概率0.7);
(3)逆推计算:
假设 P(H1)=0.1, P(H2)=0.9,计算后验概率,推断最可能的病因。
工具:贝叶斯网络中的证据传播算法(如信念传播)实现逆推理。
3. 复杂度分析
逆推理的计算复杂度与假设空间大小成指数关系,需通过启发式搜索(如最大后验概率MAP 估计)近似求解。
(五)消除归纳:排除法确定因果关系
1. 基本思想与形式化
思想:通过排除无关因素,确定真正的因果关系。穆勒五法(求同法、求异法、求同求异并用法、共变法、剩余法)是典型方法。
形式化(求异法):
场合 1:存在条件 A,出现现象 B;
场合 2:不存在条件 A,不出现现象 B;
结论:A 是 B 的原因,即 A → B。
2. 示例:医学对照试验
流程:
(1)实验组:服用药物 A(条件A存在),症状改善(现象B出现);
(2)对照组:服用安慰剂(条件A不存在),症状未改善(现象B不出现);
(3)消除归纳:排除安慰剂效应,确定药物A是症状改善的原因。
数学表达:设因果效应为 τ = E[Y|A=1] - E[Y|A=0],通过随机对照试验(RCT)估计 τ。
3. 算法实现:因果森林
消除归纳的高级形式是因果推断模型,如因果森林通过双重机器学习估计Treatment Effect,排除混杂变量影响:
其中 是 outcome模型,A 是干预变量。
二、示例学习:从实例到知识的桥梁
示例学习(Learning from Examples)又称为实例学习或从例子中学习,它是通过从环境中取得若干与某概念有关的例子,经归纳得出一般性概念的一种学习方法。在这种学习方法中,外部环境(教师)提供的是一组例子(正例和反例),这些例子实际上是一组特殊的知识,每一个例子表达了仅适用于该例子的知识,示例学习就是要从这些特殊知识中归纳出适用于更大范围的一般性知识,它将覆盖所有的正例并排除所有反例。例如,如果我们用一批动物作为示例,并且告诉学习系统哪一个动物是“马”,哪一个动物不是,当示例足够多时,学习系统就能概括出关于“马”的概念模型,使自己能识别马,并且能把马与其它动物区别开来,这一学习过程就是示例学习。
示例学习是归纳学习的核心范式,通过分析正例和反例,生成一般性知识。王永庆将其定义为“通过归纳实例的共同属性,形成概念或规则”,分为学习模型和知识形成方法两部分。
(一)示例学习的学习模型
1. 双空间模型
示例学习的核心是在 实例空间 和 假设空间 之间建立映射,包含四个关键步骤:
(1)实例表示:将实例编码为特征向量 x = (x_1, x_2, ..., x_d),如鸢尾花的花瓣长度、宽度等;
(2)假设表示:定义假设空间H,如决策树、逻辑规则、神经网络;
(3)泛化操作:通过泛化(Generalization)扩大假设覆盖范围(如将“花瓣长度> 5cm”泛化为“花瓣长度 > 4cm”),或通过特化(Specialization)缩小范围;
(4)搜索策略:使用广度优先、爬山法等搜索假设空间,寻找与实例一致的最优假设。关于“爬山法”可以看我的CSDN文章:七种改进爬山算法的方法_爬山算法改进-CSDN博客
2. 形式化定义
设正例集合,反例集合
,示例学习的目标是找到假设 h∈H,满足:
,
,即假设 h 需一致拟合所有训练实例。
3. 示例:字符识别中的实例学习
实例空间:手写数字图像转换为16×16像素的二值矩阵;
假设空间:结构化为决策树,每个节点测试某个像素是否为黑色;
泛化操作:将“像素 (3,5) 为黑色”泛化为“像素 (3,5) 或 (4,5) 为黑色”,扩大识别范围; 搜索策略:ID3算法按信息增益选择分裂节点,构建与训练图像一致的决策树。
(二)形成知识的方法
1. 基于属性的归纳:从具体到抽象
方法:通过删除条件、放松约束等操作,将具体实例泛化为一般规则。
(1)删除条件:实例“好瓜:色泽 = 青绿,根蒂 = 蜷缩,敲声 = 浊响”可泛化为“根蒂 = 蜷缩,敲声 = 浊响”,删除“色泽”属性;
(2)值泛化:将“色泽 = 青绿”泛化为“色泽 = 绿色系”,覆盖更多正例。
算法:AQ算法(Michalski, 1969)生成“如果 - 那么”规则,如:IF 根蒂=蜷缩 AND 敲声=浊响 THEN 好瓜,通过覆盖正例、排斥反例的启发式搜索生成规则集。
(3)除此之外,还有变量代换常量、合取变析取、归结归纳、曲线拟合等。
2. 基于版本空间的搜索
版本空间(Version Space):所有与训练实例一致的假设集合,通过正例缩小下界、反例缩小上界。
(1)下界:最特殊假设(S-specific hypothesis),仅覆盖正例;
(2)上界:最一般假设(G-general hypothesis),覆盖所有可能正例。
示例:设属性“色泽”可取 {青绿,乌黑,浅白},正例“色泽 = 青绿”,反例“色泽 = 浅白”,则版本空间的上界为“色泽 = 青绿或乌黑”,下界为“色泽 = 青绿”。
3. 数学基础:假设空间复杂度
假设空间的大小 |H| 决定学习难度,对于布尔属性(每个属性取 0/1),n个属性的假设空间大小为 (包含所有可能的逻辑组合)。奥卡姆剃刀原则倾向于选择最简单的假设(如最短决策树)。
三、观察与发现学习:无监督的知识创造
观察与发现学习(Observational and Discovery Learning)是归纳学习的高级形式,无需显式标签,通过观察数据内在结构,发现新的概念或规律,包括观察学习和机器发现。前者用于对事例进行概念聚类,形成概念描述;后者用于发现规律,产生定律或规则。
(一)概念聚类:从数据到概念的抽象
1. 基本思想
传统聚类(如 K-means)基于数据相似性分组,而 概念聚类(Conceptual Clustering)进一步为每个聚类生成可解释的概念描述,如“鸟类:有羽毛、会飞、卵生”。
2. 形式化模型
设数据集合 D = {x_1, x_2, ..., x_n},每个实例有属性集合 A = {a_1, a_2, ..., a_d},概念聚类的目标是找到划分 C = {C_1, C_2, ..., C_k},使得:
(1)每个聚类 C_i 可被一个概念 c_i 描述(如逻辑表达式);
(2)划分的总体描述长度最短(最小描述长度原则,MDL)。
3. 示例:动物分类的概念聚类
流程:
(1)数据表示:每个动物实例包含属性 {有羽毛,会飞,有鳞片,胎生,生活环境};
(2)聚类与概念生成:
1)聚类 1:{麻雀,鸽子},概念描述为“有羽毛 ∧ 会飞 ∧ ¬ 胎生”;
2)聚类 2:{鱼,蛇},概念描述为“有鳞片 ∧ ¬ 会飞 ∧ 生活环境 = 水中或陆地”;
(3)评估优化:使用 AIC/BIC 准则选择最优聚类数和概念描述。
4. 算法实现:COBWEB算法
COBWEB 是典型概念聚类算法,通过增量式构建分类树,每个节点存储概念的概率描述(如 P (有羽毛 | 鸟类)),分裂标准为分类信息增益:
其中 H(c) 是子节点的熵,H(parent) 是父节点的熵。
(二)机器发现:从数据到规律的跃升
1. 基本定义
机器发现(Machine Discovery)指计算机自动从数据中发现新的科学规律或理论,如开普勒行星运动定律、门捷列夫元素周期表。核心是识别变量间的函数关系或定性规律。
2. 数据驱动的发现方法
(1)数值规律发现:BACON系统
思想:通过变量间的共变关系,拟合多项式或指数函数。
示例:发现开普勒第三定律 T² = kR³(周期平方与轨道半径立方成正比):
1)输入数据:行星轨道半径 R 和周期 T 的观测值;
2)计算 R 和 T 的各种组合(R², T³, R/T 等),寻找常数项;
3)发现当计算 T²/R³ 时,值几乎恒定,归纳出定律。
(2)定性规律发现:GLAUBER系统
思想:处理化学反应数据,发现反应条件和产物的定性关系。
规则形式:酸 + 金属 → 盐 + 氢气 通过归纳反应前后的物质属性变化,生成化学反应规则。
3. 数学建模:符号回归
机器发现的现代形式是符号回归,使用遗传算法搜索数学表达式空间,拟合数据生成公式。目标函数为:
其中F是包含加减乘除、指数、对数等运算的函数空间,|f| 是表达式复杂度惩罚项。
4. 案例:玻尔兹曼常数的机器发现
数据:理想气体的压强 P、体积 V、温度 T 的实验数据;
发现过程:
(1)计算 PV/T 的值,发现其接近常数;
(2)结合阿伏伽德罗常数,归纳出 PV = nRT,其中 R 为玻尔兹曼常数;
算法:基于维度分析和量纲一致性约束,缩小搜索空间。
四、归纳学习的理论深度:从样本到泛化的保证
(一)归纳偏置的数学表达
归纳偏置 B 是学习系统对假设空间的先验约束,形式化为:
其中 D 是训练数据,h 是学习到的假设。例如,决策树的归纳偏置是“特征空间可通过轴平行划分”,线性模型的偏置是“决策边界为线性超平面”。
(二)PAC学习理论
概率近似正确(PAC, Probably Approximately Correct)理论为归纳学习提供理论保证:设假设空间H 的VC维为 d,则对任意 ϵ,δ > 0,存在样本量,使得存在假设 h∈H 满足:
该理论量化了归纳学习所需的样本复杂度。
(三)归纳与演绎的对偶性
归纳学习生成的假设可作为演绎推理的前提,形成“归纳 - 演绎”闭环:
(1)归纳:从实例中学习规则 ∀x, A(x) → B(x);
(2)演绎:对新实例 x_0,若 A(x_0) 为真,则推断 B(x_0) 为真。
这种对偶性是专家系统(如 MYCIN)的核心逻辑。
五、总结:归纳学习的本质与未来
1. 核心价值
归纳学习是人类认知和机器学习的基石,其本质是通过有限实例推断无限可能,实现知识的创造性扩展。从早期的符号归纳(如决策树、规则学习)到现代的统计归纳(如深度学习、迁移学习),归纳学习始终遵循“特殊→一般→特殊”的认知循环。
2. 技术挑战
(1)可解释性:深度神经网络的归纳偏置隐式存在,需发展符号归纳与数值归纳的融合方法(如神经符号系统);
(2)小样本归纳:在少样本或零样本场景下,如何利用先验知识增强归纳能力(如元学习、类比迁移);
(3)抗噪声归纳:处理不完整、有噪声的实例,需鲁棒的归纳算法(如基于置信度的规则生成)。
3. 王永庆理论的延伸
《人工智能原理与方法》强调“归纳学习的有效性取决于实例的代表性和假设空间的合理性”,现代机器学习通过以下方式拓展:
(1)数据增强:通过旋转、缩放等操作生成虚拟实例,提升实例代表性;
(2)假设空间正则化:通过 Dropout、权重衰减限制假设空间复杂度,避免过拟合;
(3)增量归纳:在线学习算法持续更新假设,适应动态环境中的概念漂移。
归纳学习作为连接数据与知识的桥梁,将在自动驾驶(从驾驶数据归纳交通规则)、药物发现(从分子数据归纳活性规律)等领域发挥更关键的作用。其核心追求“从具体经验中提炼普遍智慧”,既是人工智能的技术挑战,也是实现通用智能的必经之路。