首页 > 解决方案 > DBSCAN 在高密度数据集上。R

问题描述

我最近一直在用 R 研究 DBSCAN 以进行交通研究,我希望有人可以帮助我处理这个特定的数据集。

我的数据集摘要如下所述。

      BTIME ATIME
1029  20001 21249
2944  24832 25687
6876  25231 26179
11120 20364 21259
11428 25550 26398
12447 24208 25172

我想要做的是使用 BTIME 作为 x 轴,ATIME 作为 y 轴对这些数据进行聚类。一对 BTIME 和 ATIME 代表地铁乘客的上车时间和到达时间。

为了获得更多解释,我将添加我的总数据集的散点图。

我的数据集的散点图

但是,如果我将数据集拆分为不同的较小时间段,散点图将如下所示。我将其称为示例数据集更大比例的散点图。

如果我对第二张图像(样本数据集)执行 DBSCAN 聚类,则聚类将按预期执行。 在此处输入图像描述

然而,似乎 DBSCAN 无法在较小规模的总数据集上执行集群。可能是因为数据太密集了。

所以我的问题是, 有没有办法在整个数据集中执行聚类? 应该使用什么标准来区分数据的时间尺度

我认为整个数据集非常密集,这就是我尝试在样本时间段上进行聚类的原因。

如果我将我的总数据分成更小的时间尺度,我将如何为每个分离的数据集选择超参数?如果我查看数据,数据的分布在总数据集和分离的样本数据集中都是相似的。

我真诚地感谢一些建议。

标签: rcluster-analysisdbscan

解决方案


推荐阅读