机器学习 Density-Based Clustering 怎么实现?基于密度的聚类算法详解

文章导读
Previous Quiz Next 基于密度的聚类基于这样的思想:聚类是高密度区域,由低密度区域分隔。
📋 目录
  1. 流行的基于密度聚类算法
A A

机器学习 - 基于密度的聚类



Previous
Quiz
Next

基于密度的聚类基于这样的思想:聚类是高密度区域,由低密度区域分隔。

  • 该算法首先识别“核心”数据点,这些数据点在指定距离内具有最小数量的邻居。这些核心数据点形成聚类的中心。

  • 接下来,算法识别“边界”数据点,这些数据点不是核心数据点,但至少有一个核心数据点作为邻居。

  • 最后,算法识别“噪声”数据点,这些数据点既不是核心数据点也不是边界数据点。

流行的基于密度聚类算法

以下是最常见的基于密度聚类算法 −

DBSCAN 聚类

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,带有噪声的应用的空间聚类基于密度)算法是最常见的基于密度聚类算法之一。DBSCAN 算法需要两个参数:最小邻居数量(minPts)和核心数据点之间的最大距离(eps)。

OPTICS 聚类

OPTICS(Ordering Points to Identify the Clustering Structure,排序点以识别聚类结构)是一种基于密度的聚类算法,它通过构建数据集的可达性图来工作。可达性图是一个有向图,将每个数据点连接到其在指定距离阈值内的最近邻居。可达性图中的边根据所连接数据点之间的距离加权。然后,该算法通过递归地将可达性图基于指定的密度阈值分割成聚类来构建层次聚类结构。

HDBSCAN 聚类

HDBSCAN(Hierarchical Density-Based Spatial Clustering of Applications with Noise,层次化基于密度的带有噪声的应用空间聚类)是一种基于密度聚类的聚类算法。它是一种较新的算法,建立在流行的 DBSCAN 算法基础上,并提供了多项优势,例如更好地处理不同密度的聚类以及检测不同形状和大小的聚类。

在接下来的三章中,我们将详细讨论所有三种基于密度聚类算法,并附上它们的 Python 实现。