数据集群
- 集群 是类似数据的集合
- 聚类 是一种无监督学习
- 这 相关系数 描述关系的强度。
集群
集群 是基于相似性的数据集合。
图中聚集在一起的数据点通常可以分类为簇。
在下图中我们可以区分出3个不同的集群:
识别集群
簇可以容纳大量有价值的信息,但是簇有各种各样的形状,那么我们如何识别它们呢?
两种主要方法是:
- 使用可视化
- 使用聚类算法
聚类
聚类 是一种无监督学习.
集群正在尝试:
- 分组收集类似数据
- 收集其他组中不同的数据
聚类方法
- 密度法
- 层次法
- 分割方法
- 基于网格的方法
这 密度法 认为密集区域中的点比低密度区域中的点具有更多的相似性和差异性。密度方法具有良好的准确性。它还具有合并聚类的能力。
两种常见的算法是DBSCAN和OPTICS。
这 层次法 以树型结构形成簇。使用先前形成的簇形成新的簇。
两种常见的算法是 CURE 和 BIRCH。
这 基于网格的方法 将数据格式化为有限数量的单元格,形成网格状结构。
两种常见的算法是 CLIQUE 和 STING
这 分割方法 将对象划分为 k 个簇,每个分区形成一个簇。
一种常见的算法是CLARANS。
相关系数
这 相关系数 (r)描述散点图上线性关系和 x/y 变量的强度和方向。
r 的值始终介于 -1 和 +1 之间:
-1.00 | 完美下坡 | 负线性关系。 |
-0.70 | 强劲下坡 | 负线性关系。 |
-0.50 | 中等下坡 | 负线性关系。 |
-0.30 | 下坡无力 | 负线性关系。 |
0 | 没有线性关系。 | |
+0.30 | 上坡无力 | 正线性关系。 |
+0.50 | 中等上坡 | 正线性关系。 |
+0.70 | 上坡强劲 | 正线性关系。 |
+1.00 | 完美上坡 | 正线性关系。 |
完美上坡 +1.00:
完美下坡 -1.00:
强上坡 +0.61:
没有关系: