聚类分析笔记-K均值matlab算法（一）-白红宇

聚类分析笔记-K均值matlab算法（一）

阅读量：221 次

发布时间：2019-02-28

本文共 2629 字，大约阅读时间需要 8 分钟。

一：介绍

关于聚类分析算法，类型较多，用法也不同。先收集一些网上的相关博客，有兴趣可以看看：

1.聚类分析综述：

2.这个博主整了个聚类分析系列，很好呀，原理介绍部分棒，部分程序是用Java语言写的，熟悉的可以看看。

贴其中一个索引：

3.再收藏一个机器学习算法系列，当然里面有道关于K-均值算法。

贴其中一个索引：

二：关于聚类分析的动态聚类算法

下面的部分内容是看模式课程整理的：

2.1.思想：一）选取K个样本作为聚类中心

二）按某种聚类准则（如：最小距离准则）使所有样本点都找到自己所属的初始类

三）判断分类是否合理，不合理修改分类

四）反复迭代修改直至分类合理

2.常用方法：

● K-均值算法

● ISODATA算法（迭代自组织数据分析算法）（matlab实现书籍上有）

（有点复杂 --> 动态调整分类数目）

（这些算法，matlab都有自带的函数（还没用过！），当明白了算法的原理后，再去用这些函数应该很好）

2.2: K-均值算法 （--->一般使用在已知可以分成几类的情况下效果好）

思想：使聚类性能指标最小化，准则函数：每一个样本点到该类中心的距离平方和最小。

算法： 一）选K个聚类中心，Z（1)......Z（K）。开始可以任意选。

（任意选，选取的准确度与先验知识等等有关，可以考虑）

二）逐个将需要分类的样本进行分类到K个初始类中的某一个中，假设当i=j时，可以满足

，那么x就属于第Sj(k)个。

K：迭代次数，每个样本都得迭代K次才能判断出来那个是最近的。

Sj(k)：第j个聚类，聚类中心为Z(j)

三）计算各个聚类中心的新的值，组成新的聚类中心向量。

N：该类中样本的个数

有了聚类中心向量，可以使用聚类准则函数使函数值最小：

（该步骤中要计算K个聚类的均值，所以叫K-均值）

比较：若，则返回第二步继续迭代，所有的模式样本重新分类。

（此时与上一回合变化的只是聚类中心点，这已经足够了）如果相等，那么很明显算法收敛了（没有改变了）。

讨论该算法：

K-均值受那些因素的影响：

● 所选的聚类数目（最直接的影响，所以说比较适合于已知类别的分类）

● 聚类中心的初始分布

● 样本几何性质（越高维数据，计算量越大）

● 读入样本次序

进一步讨论方法：

● 试验中如果不知道分类数，那么可以试探不同的K值和不同的聚类中心（可以随机产生初始聚类中心）。

● 模式样本本身类之间的差距大时，收敛性较好。

三：简易的matlab程序实现

根据上面的算法思路，编写matlab程序如下：

%--------------函数说明-------------%-----简单的两类聚类分类问题%---（模拟数据，已知类别数为2类，K-means在已知类别下使用较好）%-----------------------------------function mean = k_means_new%%%------------随机生成用于分类的10对坐标---%--------------（必须具有一定的差异性）for i=1:100    x1(i) = rand()*5;      %人为保证差异性    y1(i) = rand()*5;      x2(i) = rand()*5 + 3; %人为保证差异性    y2(i) = rand()*5 + 3;endx = [x1,x2];y = [y1,y2];cities = [x;y];% plot(cities(1,:),cities(2,:),'*');  %画出来%%%------------随机把其中两个点作为初始的聚类中心num = size(cities,2);   %样本个数m1 = round(rand()*num);    %随机选取两个当做初始聚类中心m2 = round(rand()*num);while m1==m2               %不能相同    m2 = round(rand()*num);end                u1 = cities(:,m1);        u2 = cities(:,m2);u_old = [u1,u2];u_new = [u2,u1];%%while u_old ~= u_new   %聚类中心没有变化时退出循环    u_old = u_new ;    %更新聚类中心坐标    for j=1:num      %对与每一个样本，找到对应的类        dis1 = norm(cities(:,j)-u1);  %求距离，范数        dis2 = norm(cities(:,j)-u2);        if dis1>=dis2  c(j) = 2;    %比较距离，划分类        else c(j) = 1;        end    end    index1 = find(c==1);   %索引第一类    index2 = find(c==2);   %...    sum1 = sum(cities(:,index1),2);  %对第一类中的元素x,y分别求和    sum2 = sum(cities(:,index2),2);  %...    u1 = sum1/length(index1);      %对第一类平均，求取新的聚类中心    u2 = sum2/length(index2);     %...    u_new = [u1,u2];        %新的聚类中心向量end%%hold on,plot(cities(1,index1),cities(2,index1),'*');  %画出来hold on,plot(cities(1,index2),cities(2,index2),'+');  hold on,plot(u1(1),u1(2),'o',u2(1),u2(2),'o');mean = u_new;

直接运行函数就可以了，改变一下程序第二行的数字参数，使得初始生成的点个数不同，从而测试下效果：

初始点10个：

初始点20个：

初始点50个：

初始点100个：

实验了多次，看着都很准，基本上没有分错类的，可以看到K-均值对已知分类的问题效果确实还行。

你可能感兴趣的文章

MySQL 深度分页性能急剧下降，该如何优化？

MySQL 添加列，修改列，删除列

mysql 添加索引

MySQL 添加索引，删除索引及其用法

mysql 状态检查,备份，修复

MySQL 用 limit 为什么会影响性能？

MySQL 用 limit 为什么会影响性能？有什么优化方案？

MySQL 用户权限管理：授权、撤销、密码更新和用户删除（图文解析）

mysql 用户管理和权限设置

MySQL 的 varchar 水真的太深了！

mysql 的GROUP_CONCAT函数的使用（group_by 如何显示分组之前的数据）

MySQL 的instr函数

MySQL 的mysql_secure_installation安全脚本执行过程介绍

MySQL 的Rename Table语句

MySQL 的全局锁、表锁和行锁

mysql 的存储引擎介绍

MySQL 的存储引擎有哪些？为什么常用InnoDB？

Mysql 知识回顾总结-索引

MySQL 精选 60 道面试题（含答案）