欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 资讯 > 系统聚类的分类数确定——聚合系数法

系统聚类的分类数确定——聚合系数法

2024/11/13 10:25:07 来源:https://blog.csdn.net/2301_76574743/article/details/143582314  浏览:    关键词:系统聚类的分类数确定——聚合系数法

 breast_cancer数据集分析——乳腺癌诊断

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target

 

.. _breast_cancer_dataset:Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------**Data Set Characteristics:**:Number of Instances: 569:Number of Attributes: 30 numeric, predictive attributes and the class:Attribute Information:- radius (mean of distances from center to points on the perimeter)- texture (standard deviation of gray-scale values)- perimeter- area- smoothness (local variation in radius lengths)- compactness (perimeter^2 / area - 1.0)- concavity (severity of concave portions of the contour)- concave points (number of concave portions of the contour)- symmetry- fractal dimension ("coastline approximation" - 1)The mean, standard error, and "worst" or largest (mean of the threeworst/largest values) of these features were computed for each image,resulting in 30 features.  For instance, field 0 is Mean Radius, field10 is Radius SE, field 20 is Worst Radius.- class:- WDBC-Malignant- WDBC-Benign:Summary Statistics:===================================== ====== ======Min    Max
===================================== ====== ======
radius (mean):                        6.981  28.11
texture (mean):                       9.71   39.28
perimeter (mean):                     43.79  188.5
area (mean):                          143.5  2501.0
smoothness (mean):                    0.053  0.163
compactness (mean):                   0.019  0.345
concavity (mean):                     0.0    0.427
concave points (mean):                0.0    0.201
symmetry (mean):                      0.106  0.304
fractal dimension (mean):             0.05   0.097
radius (standard error):              0.112  2.873
texture (standard error):             0.36   4.885
perimeter (standard error):           0.757  21.98
area (standard error):                6.802  542.2
smoothness (standard error):          0.002  0.031
compactness (standard error):         0.002  0.135
concavity (standard error):           0.0    0.396
concave points (standard error):      0.0    0.053
symmetry (standard error):            0.008  0.079
fractal dimension (standard error):   0.001  0.03
radius (worst):                       7.93   36.04
texture (worst):                      12.02  49.54
perimeter (worst):                    50.41  251.2
area (worst):                         185.2  4254.0
smoothness (worst):                   0.071  0.223
compactness (worst):                  0.027  1.058
concavity (worst):                    0.0    1.252
concave points (worst):               0.0    0.291
symmetry (worst):                     0.156  0.664
fractal dimension (worst):            0.055  0.208
===================================== ====== ======:Missing Attribute Values: None:Class Distribution: 212 - Malignant, 357 - Benign:Creator:  Dr. William H. Wolberg, W. Nick Street, Olvi L. Mangasarian:Donor: Nick Street:Date: November, 1995This is a copy of UCI ML Breast Cancer Wisconsin (Diagnostic) datasets.
https://goo.gl/U2Uwz2Features are computed from a digitized image of a fine needle
aspirate (FNA) of a breast mass.  They describe
characteristics of the cell nuclei present in the image.Separating plane described above was obtained using
Multisurface Method-Tree (MSM-T) [K. P. Bennett, "Decision Tree
Construction Via Linear Programming." Proceedings of the 4th
Midwest Artificial Intelligence and Cognitive Science Society,
pp. 97-101, 1992], a classification method which uses linear
programming to construct a decision tree.  Relevant features
were selected using an exhaustive search in the space of 1-4
features and 1-3 separating planes.The actual linear program used to obtain the separating plane
in the 3-dimensional space is that described in:
[K. P. Bennett and O. L. Mangasarian: "Robust Linear
Programming Discrimination of Two Linearly Inseparable Sets",
Optimization Methods and Software 1, 1992, 23-34].This database is also available through the UW CS ftp server:ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/.. dropdown:: References- W.N. Street, W.H. Wolberg and O.L. Mangasarian. Nuclear feature extractionfor breast tumor diagnosis. IS&T/SPIE 1993 International Symposium onElectronic Imaging: Science and Technology, volume 1905, pages 861-870,San Jose, CA, 1993.- O.L. Mangasarian, W.N. Street and W.H. Wolberg. Breast cancer diagnosis andprognosis via linear programming. Operations Research, 43(4), pages 570-577,July-August 1995.- W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniquesto diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994)163-171.
.. 乳腺癌数据集:威斯康星州乳腺癌(诊断)数据集
--------------------------------------------**数据集特征:**:实例数: 569属性数 30 个数字、预测属性和类:属性信息:- 半径(从中心到周边各点距离的平均值)- 纹理(灰度值的标准偏差)- 周长- 面积- 平滑度(半径长度的局部变化)- 紧凑性(周长^2 / 面积 - 1.0)- 凹度(轮廓凹陷部分的严重程度)- 凹点(轮廓凹陷部分的数量)- 对称性- 分形维度(“海岸线近似值” - 1)平均值、标准误差和 “最差 ”或最大值(三个最差/最大值的平均值计算出每幅图像的这些特征的平均值、标准误差和 “最差 ”或最大值(三个最差/最大值的平均值)、得出 30 个特征值。 例如,字段 0 是平均半径,字段10 为半径 SE,字段 20 为最差半径。- 类别- WDBC-恶性- WDBC-良性:统计摘要:===================================== ====== ======最小值 最大值
===================================== ====== ======
半径(平均值):                        6.981 28.11
纹理(平均值):                         9.71 39.28
周长(平均值):                        43.79 188.5
面积(平均值):                        143.5 2501.0
平滑度(平均值):                      0.053 0.163
密实度(平均值):                      0.019 0.345
凹度(平均值):                          0.0 0.427
凹点(平均值):                          0.0 0.201
对称性(平均值):                      0.106 0.304
分形维度(平均值):                     0.05 0.097
半径(标准误差):                      0.112 2.873          
纹理(标准误差):                       0.36 4.885      
周长(标准误差):                      0.757 21.98   
面积(标准误差):                      6.802 542.2               
平滑度(标准误差):                    0.002 0.031
紧凑性(标准误差):                    0.002 0.135      
凹度(标准误差):                        0.0 0.396      
凹点(标准误差):                        0.0 0.053    
对称性(标准误差):                    0.008 0.079         
分形维度(标准误差):                  0.001 0.03  
半径(最差):                          7.93 36.04
纹理(最差):                         12.02 49.54
周长(最差):                         50.41 251.2
面积(最差):                         185.2 4254.0
平滑度(最差):                       0.071 0.223
紧凑性(最差):                       0.027 1.058
凹度(最差):                           0.0 1.252
凹点(最差):                           0.0 0.291
对称性(最差):                       0.156 0.664
分形维度(最差):                     0.055 0.208
===================================== ====== ======:缺失属性值: 无:类别分布:212 - 恶性,357 - 良性:Creator:  William H. Wolberg 博士、W. Nick Street、Olvi L. Mangasarian:Donor: 尼克-斯切特:Date: 1995 年 11 月这是 UCI ML 乳腺癌威斯康星(诊断)数据集的副本。
https://goo.gl/U2Uwz2根据乳腺肿块的细针穿刺(FNA)数字化图像计算特征。
乳腺肿块的细针抽吸(FNA)的数字化图像计算得出的。 它们描述了
图像中细胞核的特征。上述分离平面是通过
多面方法树(MSM-T)[K. P. Bennett,“通过线性规划构建决策树”。
通过线性规划构建决策树"。第四届
中西部人工智能与认知科学学会论文集》、
pp. 97-101, 1992],这是一种使用线性规划来构建决策树的分类方法。
编程来构建决策树的分类方法。 相关特征
在 1-4 个特征和 1-3 个分离平面的空间内进行穷举搜索,选出相关特征。
特征和 1-3 个分离平面的空间中进行穷举搜索,选出相关特征。实际用于获取三维空间中分离平面的线性规划
在三维空间中的分离平面的实际线性编程方法见以下文献:
[K. P. Bennett 和 O. L. Mangasarian:
"Robust Linear Robust Linear Programming Discrimination of Two Linearly Inseparable Sets"、
Optimization Methods and Software 1, 1992, 23-34]。该数据库也可通过华盛顿大学计算机科学与技术系的 ftp 服务器获取:ftp ftp.cs.wisc.edu
cd math-prog/cpo-dataset/machine-learn/WDBC/.下拉菜单:: 参考文献- W.N. Street、W.H. Wolberg 和 O.L. Mangasarian. 核特征提取用于乳腺肿瘤诊断。IS&T/SPIE 1993 国际电子成像研讨会。电子成像: 科学与技术》,第 1905 卷,第 861-870 页、加利福尼亚州圣何塞,1993 年。- O.L. Mangasarian、W.N. Street 和 W.H. Wolberg。乳腺癌诊断和通过线性规划的预后。运筹学》,43(4),第 570-577 页、1995年7月-8月。- W.H. Wolberg、W.N. Street 和 O.L. Mangasarian。机器学习技术从细针抽吸物诊断乳腺癌。癌症通讯 77 (1994)163-171.

威斯康星州乳腺癌数据集简介

from sklearn import datasets# 加载威斯康星州乳腺癌数据集
cancer_data = datasets.load_breast_cancer()# 特征数据
X = cancer_data.data# 目标变量
y = cancer_data.target


威斯康星州乳腺癌数据集是scikit-learn(sklearn)库中一个常用的内置数据集,用于分类任务。该数据集包含了从乳腺癌患者收集的肿瘤特征的测量值,以及相应的良性(benign)或恶性(malignant)标签。以下是对该数据集的简单介绍:

  • 数据集名称:威斯康星州乳腺癌数据集(Breast Cancer Wisconsin Dataset)

  • 数据集来源:数据集最初由威斯康星州医院的Dr. William H. Wolberg收集。

  • 数据集特征:数据集包含30个数值型特征,这些特征描述了乳腺肿瘤的不同测量值,如肿瘤的半径、纹理、对称性等。

  • 目标变量:数据集的目标变量是二分类的,代表肿瘤的良性(benign)或恶性(malignant)状态。良性表示肿瘤是非恶性的,恶性表示肿瘤是恶性的。

  • 样本数量:数据集包含569个样本,其中良性样本357个,恶性样本212个。

  • 数据集用途:该数据集被广泛用于分类任务、特征选择、模型评估等机器学习任务和实验中。

在使用sklearn库时,可以通过调用datasets.load_breast_cancer()函数加载威斯康星州乳腺癌数据集。加载后的数据集包含两个主要部分:data和target。data存储特征数据,target存储目标变量(标签)数据。

#读取乳腺癌数据
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
data = load_breast_cancer()
X = data.data
y = data.target
#显示数据集
print(data.DESCR)
#显示数据dataframe结果
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target
df.head()
#写入csv文件
df.to_csv('breast_cancer.csv', index=False)

聚合系数法确定最优聚类数。

#使用聚合系数确定最佳聚类数
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
sil = []
for i in range(2,11):model = AgglomerativeClustering(n_clusters=i)y_pred = model.fit_predict(X)sil.append(silhouette_score(X, y_pred))
plt.plot(range(2,11), sil)
plt.show()

 

谱系图绘制 


#根据最佳聚类数绘制树状图
from scipy.cluster.hierarchy import dendrogram, ward
model = AgglomerativeClustering(n_clusters=2)y_pred = model.fit_predict(X)
linkage_array = ward(X)
dendrogram(linkage_array)
ax = plt.gca()
ax.set_xlabel("Sample index")
ax.set_ylabel("Cluster distance")
bounds = ax.get_ybound()
ax.plot(bounds, [40, 40], '--', c='k')
ax.plot(bounds, [5, 5], '--', c='k')
plt.show()

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com