r - 在 R 中合并大量数据文件(用于搜索)
问题描述
我正在工作R 3.5
并且需要创建一个包含大约 2 亿行的庞大数据库,然后在该数据库中搜索一个包含大约 1500 万行的文件以找到参考值(然后 cbind 两个文件:输入文件 + 匹配文件)。
对于较小的数据库文件(约 1000 万行),我使用该merge()
函数将输入文件与数据库文件合并。但是,现在这几乎是不可能的。
我尝试rsqlite
了包装,虽然它确实有效,但我不喜欢它。
优点
- 参考数据文件一开始没有加载
- 它不需要任何安装(而不是
rsqlite
包)
缺点
- 它非常慢(即使在表上创建索引之后)
- 数据库文件很大(大约 10Gb)
- 绑定输入文件和找到的项目并不简单(行号可能不同)
我不想使用 SQL server 或 MySQL ,因为它们都需要安装和配置,并不适合所有系统和服务器。
在大数据匹配方面有什么建议或类似的经验吗?
解决方案
推荐阅读
- python - 如何使用 pyqt4 找出可点击的小部件索引
- javascript - 使用 setState 动态填充对象数组
- python - python中最快的递归FFT
- python - 如何从集合中的字符串中删除多余的引号?
- java - 在 Mapbox 中获取 geogson 特征的坐标
- sql - 如何将附加文本(_lab)添加到 SQL 中相同文本(system_user)的所有实例?
- vb.net - 如何从 DataGridView 添加到文本文件而不删除其中已有的内容?
- java - 通过参数值检索 ArrayList 对象
- java - 将数据发送到多个活动
- c - 串行端口上的第二次读取以规范模式返回换行符