聚类算法k-means（手撕和调用skl）

2025/2/25 4:36:48 来源：https://blog.csdn.net/weixin_40198632/article/details/141679003 浏览: 次关键词：聚类算法k-means（手撕和调用skl）

定义

K均值聚类（k-means clustering）算法是一种常用的、基于原型的聚类算法，简单、直观、高效。其步骤为：

第一步：根据事先已知的聚类数，随机选择若干样本作为聚类中心，计算每个样本与每个聚类中心的欧式距离，离哪个聚类中心近，就算哪个聚类中心的聚类，完成一次聚类划分.

第二步：计算每个聚类的几何中心，如果几何中心与聚类中心不重合，再以几何中心作为新的聚类中心，重新划分聚类. 重复以上过程，直到某一次聚类划分后，所得到的各个几何中心与其所依据的聚类中心重合或足够接近为止. 聚类过程如下图所示：

注意事项：

（1）聚类数（K）必须事先已知，来自业务逻辑的需求或性能指标.

（2）最终的聚类结果会因初始中心的选择不同而异，初始中心尽量选择离中心最远的样本.

手撸k-means

原理

上述公式不好求解，一般我们通过迭代的方式近似化求解

代码实现

数据集选择西瓜书中提供的数据

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import mathdata = pd.read_csv('西瓜数据集4.0.csv')
feature = ['密度','含糖率']
data = data[feature]K = 3#随机选取簇初始化
C_list = data.sample(K).valuesdata = data.values
while True:C_cluster = [[] for _ in range(K)]#存放每个簇的数据for i in range(len(data)):C_dist = {}#字典形式存放每个元素对于每个簇的距离，以此来判断该放入哪个簇for j in range(len(C_list)):diff = math.sqrt((data[i][0]-C_list[j][0])**2+(data[i][1]-C_list[j][1])**2)C_dist[j] = diffC_dist_sort = sorted(C_dist.items(),key = lambda x:x[1])    print(C_dist_sort)C_cluster[C_dist_sort[0][0]].append(data[i])print(C_cluster)flag = True#用于判断是否结束循环#计算每个簇的均值并置为新的中心点，若均值与之前相等则结束循环for i in range(len(C_list )):i_mean = np.mean(C_cluster[i],axis = 0)for j in range(i_mean.shape[0]):if i_mean[j] != C_list [i][j]:flag = FalseC_list [i] = i_meanbreakif flag:breakcolor = np.random.random((3,K)) #随机颜色#得到最终的分类结果并绘图
for i in range(K):C = C_cluster[i] #每一簇的元素x = [i[1] for i in C]y = [i[0] for i in C]plt.scatter(x,y,c = color[i],label = 'C'+str(i)) #随机颜色
plt.legend()
plt.xlabel('midu')
plt.ylabel('hantang')
plt.show()

将聚类后结果绘制出来

调用sklearn的库函数

import pandas as pd
import matplotlib.pyplot as plt
import sklearn.cluster as scdata = pd.read_csv('西瓜数据集4.0.csv')
feature = ['密度','含糖率']
data = data[feature]model = sc.KMeans(n_clusters=4)model.fit(data)label = model.labels_result_y = model.predict([[0.4,0.5]])
print(result_y)plt.scatter(data['含糖率'],data['密度'],c= label,cmap='spring')
plt.xlabel('midu')
plt.ylabel('hantang')
plt.legend()
plt.show()