python - Pyspark 到 pandas df 需要很多时间
问题描述
将 pyspark 对象转换为 pandas 需要很长时间。如何存储在熊猫df中?
我有以下代码(示例)。我正在从 pyspark 中提取数据,然后从 teradata 中提取数据,最后在 python 中加入 2 个不同的 df。但是,将 pp_data2 转换为 pandas df 大约需要 2 小时。
pp_data2 = sqlContext.sql('''SELECT c1,c2,c3
FROM cstonedb3.pp_data
where prod in ('7QD','7RJ','7RK','7RL','7RM') ''')
pp_data2 = pp_data2.toPandas()
解决方案
推荐阅读
- google-sheets - 不能在 ARRAYFORMULA 中使用动态确定最后一行的 INDEX(VLOOKUP 也不起作用)
- reactjs - 无法使用 useCallback 传递 setCount 函数
- r - 将列中的数字因子转换为因子字符串
- php - 检查联系表格是否有效(自动测试)
- javascript - Redux 不初始化状态
- bash - 与 Git Bash 和激活 conda env 相关的更改
- bluetooth-lowenergy - 如何通过 Movesense 使用 BleNordicUART
- redis - redis 服务失败,附加文件的权限被拒绝
- firebase - 如何检查数组是否包含 Firestore 中的两个特定字符串?
- c# - C# WPF 在不同的域中运行应用程序副本(用于单独的 cookie)