声明:未经允许禁止转载与抄袭。
前言
k k k均值( k k k-means)聚类算法是一种经典的无监督聚类算法,本文将深入解析其理论原理,并在真是数据集上进行算法实践,话不多说,请看下文。
算法原理
给定样本集 D = { x 1 , x 2 , … , x m } D=\left\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_m\right\} D={x1,x2,…,xm},其中每个样本 x i \mathbf{x}_i xi都由一个向量表示,例如以周志华老师西瓜书中的西瓜数据集为例,每个样本都包含两个属性密度和含糖量,这两个属性值组成的向量便是该样本的向量表示。
k k k均值算法旨在将样本集 D D D划分为 k k k个簇,即 C = { C 1 , C 2 , … , C k } C=\left\{C_1,C_2,\ldots,C_k\right\} C={