Python实现K-means聚类算法并可视化生成动图步骤详解

 更新时间:2021年05月08日 09:26:01   作者:黑夜里游荡  
这篇文章主要介绍了Python实现K-means聚类算法并可视化生成动图,本文分步骤给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下

K-means算法介绍

简单来说,K-means算法是一种无监督算法,不需要事先对数据集打上标签,即ground-truth,也可以对数据集进行分类,并且可以指定类别数目 牧师-村民模型

K-means 有一个著名的解释:牧师—村民模型:

有四个牧师去郊区布道,一开始牧师们随意选了几个布道点,并且把这几个布道点的情况公告给了郊区所有的村民,于是每个村民到离自己家最近的布道点去听课。
听课之后,大家觉得距离太远了,于是每个牧师统计了一下自己的课上所有的村民的地址,搬到了所有地址的中心地带,并且在海报上更新了自己的布道点的位置。
牧师每一次移动不可能离所有人都更近,有的人发现A牧师移动以后自己还不如去B牧师处听课更近,于是每个村民又去了离自己最近的布道点……
就这样,牧师每个礼拜更新自己的位置,村民根据自己的情况选择布道点,最终稳定了下来。

牧师的目的非常明显,就是要让每个来上自己课的村民走的路程最少

算法步骤

  1. 指定k个中心点
  2. 更新数据点所属类别:计算每个数据点到这k个点的欧氏距离,距离最小即为这个数据点的类别
  3. 更新中心点坐标:对每一个类别的数据点求平均,平均值即为新的中心点位置

伪代码

获取m个n维的数据
随即选取k个点作为初始中心点
while keep_changing:
	for i in range(m):
		for j in range(k):
			计算每个点到center的距离
			判断离哪个点更近
		for center in range(k):
			更新类别中心点的坐标

用Python实现K-means聚类算法

import numpy as np
import matplotlib.pyplot as plt
import sklearn.datasets as datasets

def create_data():
    X,y = datasets.make_blobs(n_samples=1000,n_features=2,centers=[[1,0],[5,4],[2,3],[10,8],[7,4]])
    return X,y

def init_centers(data,k):
    m, n =data.shape
    # m 样本个数,n特征个数
    center_ids = np.random.choice(m,k)
    centers = data[center_ids]
    return centers

def cal_dist(ptA,ptB):
   return np.linalg.norm(ptA-ptB)

def kmeans_process(data,k):
    centers = init_centers(data, k)
    m, n = data.shape
    keep_changing = True
    pred_y = np.zeros((m,))

    while keep_changing:
        keep_changing = False
        # 计算剩余样本所属类别
        for i in range(m):
            min_distance = np.inf
            for center in range(k):
                distance = cal_dist(data[i,:],centers[center,:])
                if distance<min_distance: # 判断离哪个更近
                    min_distance = distance
                    idx = center # 类别换下
            if pred_y[i] != idx:   # 判断是否发生了改变
                keep_changing = True
            pred_y[i] = idx
        # 更新类别中心点坐标
        for center in range(k):
            cluster_data = data[pred_y==center]
            centers[center,:] = np.mean(cluster_data, axis=0) # 求相同类别数据点的质心点
        print(centers)
    return centers, pred_y

if __name__ == '__main__':
    X, y = create_data()
    centers , pred_y = kmeans_process(data=X, k=5)
    plt.scatter(X[:,0], X[:,1], s=3, c=pred_y)
    plt.scatter(centers[:,0], centers[:,1], s=10, c='k')
    plt.show()

效果图

在这里插入图片描述

到此这篇关于Python实现K-means聚类算法并可视化生成动图步骤详解的文章就介绍到这了,更多相关Python可视化K-means聚类算法内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家!

相关文章

  • python中的try except与R语言中的tryCatch异常解决

    python中的try except与R语言中的tryCatch异常解决

    这篇文章主要为大家介绍了python中的try except与R语言中的tryCatch异常解决的方式及分析,有需要的朋友可以借鉴参考下,希望能够有所帮助
    2021-11-11
  • 用Python实现一个简单的抽奖小程序

    用Python实现一个简单的抽奖小程序

    最近开始学习python相关知识,看最近有不少随机抽奖小程序,自己也做一个试试,下面这篇文章主要给大家介绍了关于如何利用Python实现一个简单的抽奖小程序的相关资料,需要的朋友可以参考下
    2023-05-05
  • Python 多线程处理任务实例

    Python 多线程处理任务实例

    这篇文章主要介绍了Python 多线程处理任务,下面文章利用一个真实实例围绕Python 多线程处理任务的相关资料展开内容,需要的朋友可以参考一下
    2021-11-11
  • 安装Pycharm2019以及配置anconda教程的方法步骤

    安装Pycharm2019以及配置anconda教程的方法步骤

    这篇文章主要介绍了安装Pycharm2019以及配置anconda教程的方法步骤,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2019-11-11
  • 10个必须要掌握的Python内置函数

    10个必须要掌握的Python内置函数

    Python 解释器自带的函数叫做 内置函数,这些函数不需要import 导入就可以直接使用。本文小编为大家总结了十个必须要掌握的Python内置函数,实用且高效,需要的可以参考一下
    2022-02-02
  • 利用Django-environ如何区分不同环境

    利用Django-environ如何区分不同环境

    这篇文章主要给大家介绍了关于利用Django-environ如何区分不同环境的相关资料,文中通过示例代码介绍的非常详细,对大家学习或者使用django具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2018-08-08
  • Flask中特殊装饰器的使用

    Flask中特殊装饰器的使用

    本文主要介绍了Flask中特殊装饰器的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • python获取word文档总页数的两种方法

    python获取word文档总页数的两种方法

    这篇文章主要介绍了python获取word文档的总页数的两种方法,文中给出了两种解决方案,两种方案也都各有优缺点,可能也不一定是完全准确的,需要的朋友可以参考下
    2024-03-03
  • tensorflow实现对图片的读取的示例代码

    tensorflow实现对图片的读取的示例代码

    本篇文章主要介绍了tensorflow实现对图片的读取的示例代码,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2018-02-02
  • Python 字符替换的四方法

    Python 字符替换的四方法

    本文主要介绍了Python 字符替换的四方法,主要包括replace、translate、maketrans 和正则这是四种方法,具有一定的参考价值,感兴趣的可以了解一下
    2024-01-01

最新评论