r - DBSCAN 在高密度数据集上。R
问题描述
我最近一直在用 R 研究 DBSCAN 以进行交通研究,我希望有人可以帮助我处理这个特定的数据集。
我的数据集摘要如下所述。
BTIME ATIME
1029 20001 21249
2944 24832 25687
6876 25231 26179
11120 20364 21259
11428 25550 26398
12447 24208 25172
我想要做的是使用 BTIME 作为 x 轴,ATIME 作为 y 轴对这些数据进行聚类。一对 BTIME 和 ATIME 代表地铁乘客的上车时间和到达时间。
为了获得更多解释,我将添加我的总数据集的散点图。
但是,如果我将数据集拆分为不同的较小时间段,散点图将如下所示。我将其称为示例数据集。
如果我对第二张图像(样本数据集)执行 DBSCAN 聚类,则聚类将按预期执行。
然而,似乎 DBSCAN 无法在较小规模的总数据集上执行集群。可能是因为数据太密集了。
所以我的问题是, 有没有办法在整个数据集中执行聚类? 应该使用什么标准来区分数据的时间尺度
我认为整个数据集非常密集,这就是我尝试在样本时间段上进行聚类的原因。
如果我将我的总数据分成更小的时间尺度,我将如何为每个分离的数据集选择超参数?如果我查看数据,数据的分布在总数据集和分离的样本数据集中都是相似的。
我真诚地感谢一些建议。
解决方案
推荐阅读
- java - 如果它们在用户定义类的对象内,如何检查 java HashSet 中的重复值?
- flutter - Flutter - PageView - 仅当您在特定组件而不是页面的任何位置滑动时才滚动
- git - Bitbucket 管道 - 如何计算提交次数
- sql - 根据SQL中的ID计算连续行之间的百分比?
- python-3.x - 从 ftp 服务器下载每个文件和每个子目录
- postgresql - PostgreSQL \ Vue - 无法在前端使用 Express 和 Vue 从数据库 (PostgreSQL) 获取数据
- c - 我在 linux 中使用 Valgrind 来检查 c 中的泄漏内存,但我没有发现是我的函数“join”中的泄漏
- c# - 由于初始化控制,Syncfusion Datagrid 使 Xamarin IOS 应用程序崩溃
- flutter - Image Picker 只从视频中生成图像?
- php - PHPRdfKafka而不是创建新主题如何生成现有主题