## 聚类分析方法概述聚类分析是一种无监督学习技术,旨在将数据点分组为称为簇的相似组。这些簇由算法根据数据点的特征或属性创建,无需任何先验知识或标记的数据。聚类分析可用于识别数据中的模式、发现异常值和执行市场细分。### 层次聚类
单链法 (SLINK):
根据两个簇中最接近的数据点之间的距离来测量簇之间的距离。
全链法 (CLINK):
根据两个簇中最远的两个数据点之间的距离来测量簇之间的距离。
截断距离法:
根据超过给定阈值的簇对之间的最短距离来合并簇。
沃德法:
最小化簇内差异的平方和来合并簇。### 划分聚类
k 均值:
将数据点分配到 k 个簇中,每个簇由簇中心或质心表示。迭代算法将数据点移动到与之最接近的质心。
k 中值:
类似于 k 均值,但质心是用簇中数据点的中值而不是均值来计算的。
BIRCH(平衡迭代归约和聚类层次):
建立一个层次结构来表示簇,使用中心点和直径来表示每个簇。### 基于密度聚类
DBSCAN(基于密度的空间聚类):
识别由高密度点组成的簇,并用低密度点分隔。
OPTICS(排序点识别):
将数据点排序并基于密度可达性识别簇。### 谱聚类
谱聚类:
将数据点映射到较低维度的空间,然后使用标准聚类算法在该空间中聚类数据点。### 模糊聚类
模糊 c 均值:
允许数据点同时属于多个簇,具有不同的隶属度。
FPC(模糊可能性 C 均值):
类似于模糊 c 均值,但它通过考虑数据的不确定性来提高鲁棒性。### 基于模型的聚类
有限混合模型:
将数据建模为多个正态分布的混合,其中每个分布代表一个簇。
混合高斯模型:
使用高斯分布来表示簇的形状和大小。
聚类分析方法概述聚类分析是一种无监督学习技术,旨在将数据点分组为称为簇的相似组。这些簇由算法根据数据点的特征或属性创建,无需任何先验知识或标记的数据。聚类分析可用于识别数据中的模式、发现异常值和执行市场细分。
层次聚类* **单链法 (SLINK):**根据两个簇中最接近的数据点之间的距离来测量簇之间的距离。 * **全链法 (CLINK):**根据两个簇中最远的两个数据点之间的距离来测量簇之间的距离。 * **截断距离法:**根据超过给定阈值的簇对之间的最短距离来合并簇。 * **沃德法:**最小化簇内差异的平方和来合并簇。
划分聚类* **k 均值:**将数据点分配到 k 个簇中,每个簇由簇中心或质心表示。迭代算法将数据点移动到与之最接近的质心。 * **k 中值:**类似于 k 均值,但质心是用簇中数据点的中值而不是均值来计算的。 * **BIRCH(平衡迭代归约和聚类层次):**建立一个层次结构来表示簇,使用中心点和直径来表示每个簇。
基于密度聚类* **DBSCAN(基于密度的空间聚类):**识别由高密度点组成的簇,并用低密度点分隔。 * **OPTICS(排序点识别):**将数据点排序并基于密度可达性识别簇。
谱聚类* **谱聚类:**将数据点映射到较低维度的空间,然后使用标准聚类算法在该空间中聚类数据点。
模糊聚类* **模糊 c 均值:**允许数据点同时属于多个簇,具有不同的隶属度。 * **FPC(模糊可能性 C 均值):**类似于模糊 c 均值,但它通过考虑数据的不确定性来提高鲁棒性。
基于模型的聚类* **有限混合模型:**将数据建模为多个正态分布的混合,其中每个分布代表一个簇。 * **混合高斯模型:**使用高斯分布来表示簇的形状和大小。