apache-spark - 从 pyspark 中的连接条件中获取列时出错
问题描述
我有 2 个 csv 文件我想在加入 2 个文件时将 csv 文件加载到 pyspark 中的数据帧中我没有任何问题但是在检索结果时我遇到了一个错误请帮助我
交付具有 21 列的 CSV 并匹配具有 18 列的 csv
我的代码如下所示
df1=spark.read.csv(r"C:\deliveries.csv",header=True,inferSchema=True)
df2=spark.read.csv(r"C:\matches.csv",header=True,inferSchema=True)
df = df1.join(df2, df1.match_id == df2.id, how='inner')
df.show(10)
我收到以下错误,因为它太大,所以截断了计划的字符串表示。可以通过在 SparkEnv.conf 中设置“spark.debug.maxToStringFields”来调整此行为。
所以我尝试通过在 pyspark 中使用以下命令来增加大小
spark.conf.set("spark.sql.debug.maxToStringFields", 1000)
仍然面临同样的问题,我面临任何帮助表示赞赏
解决方案
推荐阅读
- python - 根据上面的行创建新的数据框行
- python - 导航栏的 Django 视图功能
- node.js - NODE AWS S3 文件位置与某些字符的响应不同
- python-3.x - 在带有图像的标签上创建画布
- c - 使用 IAR 编译器在函数原型上使用“#pragma inline”就足够了吗?
- c# - 为什么 htmlcode 没有在剃须刀中转换
- c# - 查找包含实现接口的脚本的子对象中的所有对象
- reactjs - s3 aws反应上传文件ERR_NAME_NOT_RESOLVED SOLUTION
- json - Chrome 扩展程序:如何将站点访问默认设置为“在特定站点上”并预先填充它们?
- backdraftjs - backdraftjs 组件如何操作子组件上的 watchable?