如何利用python实现kmeans聚类

 更新时间:2022年05月17日 14:48:15   作者:嘟嘟肚腩仔  
K-Means是聚类算法的一种,以距离来判断数据点间的相似度并对数据进行聚类,下面这篇文章主要给大家介绍了关于如何利用python实现kmeans聚类的相关资料,文中通过示例代码介绍的非常详细,需要的朋友可以参考下

一、先上手撸代码!

1、首先是导入所需要的库和数据

import pandas as pd
import numpy as np
import random
import math
import matplotlib.pyplot as plt
 
# 这两行代码解决 plt 中文显示的问题
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
 
df = pd.read_excel('13信科学生成绩.xlsx')
data = np.array(df)
 
df.head(10)

先给大伙们看看数据集长啥样:

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_3,color_FFFFFF,t_70,g_se,x_16

用matplotlib简单的可视化一下初始数据:

# 输入数据
x = data.T[0]
y = data.T[1]
 
plt.scatter(x, y, s=50, c='r')  # 画散点图
plt.xlabel('平时')  # 横坐标轴标题
plt.ylabel('期末')  # 纵坐标轴标题
plt.show()

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_10,color_FFFFFF,t_70,g_se,x_16

 2、接下来就是kmeans的核心算法了

k=3
i = 1
 
min1 = data.min(axis = 0)
max1 = data.max(axis = 0)
 
#在数据最大最小值中随机生成k个初始聚类中心,保存为t
centre = np.empty((k,2))
for i in range(k):
    centre[i][0] = random.randint(min1[0],max1[0])#平时成绩
    centre[i][1] = random.randint(min1[1],max1[1])#期末成绩
 
while i<500:
    
    #计算欧氏距离
    def euclidean_distance(List,t):
        return math.sqrt(((List[0] - t[0])**2 + (List[1] - t[1])**2))
 
    #每个点到每个中心点的距离矩阵
    dis = np.empty((len(data),k))
    for i in range(len(data)):
        for j in range(k):
            dis[i][j] = euclidean_distance(data[i],centre[j])
    
    #初始化分类矩阵
    classify = []
    for i in range(k):
        classify.append([])
    
    #比较距离并分类
    for i in range(len(data)):
        List = dis[i].tolist()
        index = List.index(dis[i].min())
        classify[index].append(i)
    
    #构造新的中心点
    new_centre = np.empty((k,2))
    for i in range(len(classify)):
 
        new_centre[i][0] = np.sum(data[classify[i]][0])/len(classify[i])
        new_centre[i][1] = np.sum(data[classify[i]][1])/len(classify[i])
     
    #比较新的中心点和旧的中心点是否一样
    if (new_centre == centre).all():
        break
    else:
        centre = new_centre
        i = i + 1
 
# print('迭代次数为:',i)
print('聚类中心为:',new_centre)
print('分类情况为:',classify)

注意!!!这里的k是指分成k类,读者可以自行选取不同的k值做实验

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_20,color_FFFFFF,t_70,g_se,x_16

3、可视化部分(将不用类用不同颜色区分开来~~)

mark = ['or', 'ob', 'og', 'ok','sb', 'db', '<b', 'pb'] #红、蓝、绿、黑四种颜色的圆点
#mark=['sb', 'db', '<b', 'pb']
plt.figure(3)#创建图表1  
for i in range(0,k):
 
    x=[]
    y=[]
    for j in range(len(classify[i])):
        x.append(data[classify[i][j]][0])
        y.append(data[classify[i][j]][1])
 
    plt.xlim(xmax=105,xmin=45)
    plt.ylim(ymax=85,ymin=-5)
    plt.plot(x,y,mark[i])
    #plt.show()

 一起来康康可视化结果8!!

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_9,color_FFFFFF,t_70,g_se,x_16

二、接下来是调库代码!(sklearn)

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans  
from sklearn import metrics
 
df = pd.read_excel('13信科学生成绩.xlsx')
data = np.array(df)
y_pred=KMeans(n_clusters=3,random_state=9).fit_predict(data)
plt.scatter(data[:,0],data[:,1],c=y_pred)
plt.show()
print(metrics.calinski_harabasz_score(data,y_pred))

 可视化结果和手撸的结果略有差别,有可能是数据集的问题,也有可能是k值选取的问题,各位亲们不需要担心!!!

watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBA5ZCD5Y-96Zy45LiN5ZCQ5Y-96Zy455qu,size_9,color_FFFFFF,t_70,g_se,x_16

附:对k-means算法的认识

1.优点

(1)算法快速、简单。

(2)对大数据集有较高的效率并且是可伸缩性的。

(3)时间复杂度近于线性,而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt) ,其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目。

2.缺点

(1)聚类是一种无监督的学习方法,在 K-means 算法中 K 是事先给定的,K均值算法需要用户指定创建的簇数k,但这个 K 值的选定是非常难以估计的。

(2)在 K-means 算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果,这也成为 K-means算法的一个主要问题。

(3)从 K-means 算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的。所以需要对算法的时间复杂度进行分析、改进,提高算法应用范围,而这导致K均值算法在大数据集上收敛较慢。

总结

到此这篇关于如何利用python实现kmeans聚类的文章就介绍到这了,更多相关python实现kmeans聚类内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • pytorch中backward()方法如何自动求梯度

    pytorch中backward()方法如何自动求梯度

    这篇文章主要介绍了pytorch中backward()方法如何自动求梯度问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-02-02
  • Python格式化字符串f-string的使用教程

    Python格式化字符串f-string的使用教程

    这篇文章主要为大家详细介绍了Python中格式化字符串f-string的使用教程,文中通过示例为大家进行了详细的介绍,需要的可以参考一下
    2022-07-07
  • Python实现批量图片的切割

    Python实现批量图片的切割

    本文主要介绍了Python实现批量图片的切割,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-09-09
  • PyCharm配置第三方镜像源的解决方法

    PyCharm配置第三方镜像源的解决方法

    在pycharm中配置第三方镜像后,秩序搜索需要的第三方库,就可以使用第三方镜像下载,速度不是一般的快,这篇文章主要介绍了PyCharm配置第三方镜像源,需要的朋友可以参考下
    2024-01-01
  • 在类Unix系统上开始Python3编程入门

    在类Unix系统上开始Python3编程入门

    这篇文章主要介绍了在类Unix系统上开始Python3编程入门,讲解了最基础最直观的利用Print函数进行各种输出的方法,需要的朋友可以参考下
    2015-08-08
  • python实现xml转json文件的示例代码

    python实现xml转json文件的示例代码

    这篇文章主要介绍了python实现xml转json文件的示例代码,帮助大家更好的理解和使用python,感兴趣的朋友可以了解下
    2020-12-12
  • python中xml格式的转换方法

    python中xml格式的转换方法

    这篇文章主要为大家详细介绍了python中xml格式的转换方法,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-08-08
  • Python机器学习库scikit-learn使用详解

    Python机器学习库scikit-learn使用详解

    scikit-learn是Python中最流行的机器学习库之一,它提供了各种各样的机器学习算法和工具,包括分类、回归、聚类、降维等
    2023-03-03
  • python调用API实现智能回复机器人

    python调用API实现智能回复机器人

    这篇文章主要为大家详细介绍了python调用API实现智能回复机器人,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2018-04-04
  • 一文带你理解Python中面向对象编程OOP的概念

    一文带你理解Python中面向对象编程OOP的概念

    在Python中,面向对象编程(OOP)是一种在编程中使用对象和类的编程范式,它旨在实现现实世界的实体,下面我们就一起来看看它的相关知识吧
    2023-08-08

最新评论