详解Java实现的k-means聚类算法

 更新时间:2018年01月13日 15:46:25   作者:tianshl  
这篇文章主要介绍了详解Java实现的k-means聚类算法,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧

需求

对MySQL数据库中某个表的某个字段执行k-means算法,将处理后的数据写入新表中。

源码及驱动

kmeans_jb51.rar

源码

import java.sql.*;
import java.util.*;

/**
 * @author tianshl
 * @version 2018/1/13 上午11:13
 */
public class Kmeans {
  // 源数据
  private List<Integer> origins = new ArrayList<>();

  // 分组数据
  private Map<Double, List<Integer>> grouped;

  // 初始质心列表
  private List<Double> cores;

  // 数据源
  private String tableName;
  private String colName;

  /**
   * 构造方法
   *
   * @param tableName 源数据表名称
   * @param colName  源数据列名称
   * @param cores   质心列表
   */
  private Kmeans(String tableName, String colName,List<Double> cores){
    this.cores = cores;
    this.tableName = tableName;
    this.colName = colName;
  }

  /**
   * 重新计算质心
   *
   * @return 新的质心列表
   */
  private List<Double> newCores(){
    List<Double> newCores = new ArrayList<>();

    for(List<Integer> v: grouped.values()){
      newCores.add(v.stream().reduce(0, (sum, num) -> sum + num) / (v.size() + 0.0));
    }

    Collections.sort(newCores);
    return newCores;
  }

  /**
   * 判断是否结束
   *
   * @return bool
   */
  private Boolean isOver(){
    List<Double> _cores = newCores();
    for(int i=0, len=cores.size(); i<len; i++){
      if(!cores.get(i).toString().equals(_cores.get(i).toString())){
        // 使用新质心
        cores = _cores;
        return false;
      }
    }
    return true;
  }

  /**
   * 数据分组
   */
  private void setGrouped(){
    grouped = new HashMap<>();

    Double core;
    for (Integer origin: origins) {
      core = getCore(origin);

      if (!grouped.containsKey(core)) {
        grouped.put(core, new ArrayList<>());
      }

      grouped.get(core).add(origin);
    }
  }

  /**
   * 选择质心
   *
   * @param num  要分组的数据
   * @return   质心
   */
  private Double getCore(Integer num){

    // 差 列表
    List<Double> diffs = new ArrayList<>();

    // 计算差
    for(Double core: cores){
      diffs.add(Math.abs(num - core));
    }

    // 最小差 -> 索引 -> 对应的质心
    return cores.get(diffs.indexOf(Collections.min(diffs)));
  }

  /**
   * 建立数据库连接
   * @return connection
   */
  private Connection getConn(){
    try {
      // URL指向要访问的数据库名mydata
      String url = "jdbc:mysql://localhost:3306/data_analysis_dev";
      // MySQL配置时的用户名
      String user = "root";
      // MySQL配置时的密码
      String password = "root";

      // 加载驱动
      Class.forName("com.mysql.jdbc.Driver");

      //声明Connection对象
      Connection conn = DriverManager.getConnection(url, user, password);

      if(conn.isClosed()){
        System.out.println("连接数据库失败!");
        return null;
      }
      System.out.println("连接数据库成功!");

      return conn;

    } catch (Exception e) {
      System.out.println("连接数据库失败!");
      e.printStackTrace();
    }

    return null;
  }

  /**
   * 关闭数据库连接
   *
   * @param conn 连接
   */
  private void close(Connection conn){
    try {
      if(conn != null && !conn.isClosed()) conn.close();
    } catch (Exception e){
      e.printStackTrace();
    }
  }

  /**
   * 获取源数据
   */
  private void getOrigins(){

    Connection conn = null;
    try {
      conn = getConn();
      if(conn == null) return;

      Statement statement = conn.createStatement();

      ResultSet rs = statement.executeQuery(String.format("select %s from %s", colName, tableName));

      while(rs.next()){
        origins.add(rs.getInt(1));
      }
      conn.close();
    } catch (Exception e){
      e.printStackTrace();
    } finally {
     close(conn);
    }
  }

  /**
   * 向新表中写数据
   */
  private void write(){

    Connection conn = null;
    try {
      conn = getConn();
      if(conn == null) return;
      
      // 创建表
      Statement statement = conn.createStatement();

      // 删除旧数据表
      statement.execute("DROP TABLE IF EXISTS k_means; ");
      // 创建新表
      statement.execute("CREATE TABLE IF NOT EXISTS k_means(`core` DECIMAL(11, 7), `col` INTEGER(11));");

      // 禁止自动提交
      conn.setAutoCommit(false);

      PreparedStatement ps = conn.prepareStatement("INSERT INTO k_means VALUES (?, ?)");

      for(Map.Entry<Double, List<Integer>> entry: grouped.entrySet()){
        Double core = entry.getKey();
        for(Integer value: entry.getValue()){
          ps.setDouble(1, core);
          ps.setInt(2, value);
          ps.addBatch();
        }
      }

      // 批量执行
      ps.executeBatch();

      // 提交事务
      conn.commit();

      // 关闭连接
      conn.close();
    } catch (Exception e){
      e.printStackTrace();
    } finally {
      close(conn);
    }
  }

  /**
   * 处理数据
   */
  private void run(){
    System.out.println("获取源数据");
    // 获取源数据
    getOrigins();

    // 停止分组
    Boolean isOver = false;

    System.out.println("数据分组处理");
    while(!isOver) {
      // 数据分组
      setGrouped();
      // 判断是否停止分组
      isOver = isOver();
    }

    System.out.println("将处理好的数据写入数据库");
    // 将分组数据写入新表
    write();

    System.out.println("写数据完毕");
  }

  public static void main(String[] args){
    List<Double> cores = new ArrayList<>();
    cores.add(260.0);
    cores.add(600.0);
    // 表名, 列名, 质心列表
    new Kmeans("attributes", "attr_length", cores).run();
  }
}

源文件

Kmeans.java

编译

javac Kmeans.java 

运行

# 指定依赖库
java -Djava.ext.dirs=./lib Kmeans

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

相关文章

  • Java如何接收前端easyui datagrid传递的数组参数

    Java如何接收前端easyui datagrid传递的数组参数

    这篇文章分享一下怎么在easyui的datagrid刷新表格时,在后端java代码中接收datagrid传递的数组参数,本文通过实例代码给大家介绍的非常详细,需要的朋友参考下吧
    2023-11-11
  • java实现快速排序算法

    java实现快速排序算法

    快速排序算法是基于分治策略的另一个排序算法。其基本思想是:对输入的子数组a[p:r],按以下三个步骤进行排序。 1) 分解(Divide)(2) 递归求解(Conquer) (3) 合并(Merge)
    2015-04-04
  • JavaEE账号注册模拟网站邮箱激活

    JavaEE账号注册模拟网站邮箱激活

    这篇文章主要为大家详细介绍了JavaEE账号注册模拟网站邮箱激活,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2016-09-09
  • Java比较两个List的值是否相等的方法

    Java比较两个List的值是否相等的方法

    这篇文章主要介绍了Java比较两个List的值是否相等的方法,涉及java针对队列比较的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
    2015-07-07
  • MyBatis中#{}占位符与${}拼接符的用法说明

    MyBatis中#{}占位符与${}拼接符的用法说明

    这篇文章主要介绍了MyBatis中#{}占位符与${}拼接符的用法说明,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2021-02-02
  • 简单了解Spring beanfactory循环依赖命名重复属性

    简单了解Spring beanfactory循环依赖命名重复属性

    这篇文章主要介绍了简单了解Spring beanfactory循环依赖命名重复2大属性,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2020-06-06
  • java编程实现求质数与因式分解代码分享

    java编程实现求质数与因式分解代码分享

    这篇文章主要介绍了Java编程实现求质数与因式分解代码分享,对二者的概念作了简单介绍(多此一举,哈哈),都是小学数学老师的任务,然后分享了求解质数和因式分解的Java代码,具有一定借鉴价值,需要的朋友可以参考下。
    2017-12-12
  • 深入了解java.util.Arrays的使用技巧

    深入了解java.util.Arrays的使用技巧

    在这篇文章中,我们将来带大家看看 java.util.Arrays ,我们可以使用 Arrays 创建,比较,排序,搜索,stream 和转化数组,感兴趣的小伙伴可以了解一下
    2023-02-02
  • java 非对称加密算法DH实现详解

    java 非对称加密算法DH实现详解

    这篇文章主要介绍了java 非对称加密算法DH实现详解 ,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2019-07-07
  • Java如何获取真实请求IP

    Java如何获取真实请求IP

    这篇文章主要介绍了Java如何获取真实请求IP问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2023-08-08

最新评论