python - 使用 Python/Pyspark 在 Salesforce 中查询具有 400 万条记录和 250 列的表
问题描述
我需要从具有 400 万条记录和 250 列的 Salesforce 中提取表 ABC。我正在使用 python simple-salesforce API 来执行此操作,但是如果我使用的是 8GB ram 机器,则内存不足。
有什么方法可以使用 Pyspark 在 Salesforce 中查询这么多的记录,如果有,请建议。
如果还有使用 Python 或 Pyspark 的任何其他方法,请同时提出建议......
解决方案
您是否有机会query_all
从simple_salesforce使用?如果是这样,您可以尝试query_more
或query_all_iter
改为让您的脚本不会尝试将所有内容加载到单个 Python 列表中。
推荐阅读
- python - Python - pd.to_datetime 不将对象字符串转换为日期时间,一直是对象
- queue - 在通道的 processMessage 方法上添加队列模型
- ruby-on-rails - 带有 Docker 的 Rails 5(无法创建应用程序)
- java - 如何使用 Apache Flink 在 Cassandra 中删除一行?
- excel - 如何VBA等待Windows保存对话框和sendkeys
- docker - 为什么我的 docker 镜像(由“docker-compose build”构建)没有使用正确版本的代码?
- python - 在 AsyncResult/GroupResult 中缺少父项和子项
- javascript - Javascript 和 jquery 脚本只更改一次类
- android - recyclerview 更新期间所有功能都暂停
- javascript - 有没有办法用 chrome 扩展的上述代码的修改版本替换所有 html 代码