apache-spark - 熊猫数据帧的 PySpark rdd
问题描述
我正在提取不同源文件的信息。每个源文件对应于一些测量数据的给定快照时间。我有一个预处理函数,它采用其中一个文件并输出一个熊猫数据框。所以我做了一个 sparksc.wholeTextFiles
调用,它给了我所有输入文件的列表,然后我调用map
它,它为我提供了一个 rdd,其中每个元素都是一个 pandas 数据框。现在“重塑”这种结构的最佳方法是什么,以便我只有一个由连接的较小数据帧组成的结果数据帧?
解决方案
您可以创建火花数据框。假设这些文件位于一个位置并被定界,您可以使用 spark 创建一个包含所有文件数据的新数据框。
spark.read.option("header", "true").csv("../location/*")
之后,您可以使用 spark 中可用的大量转换。它们与 pandas 非常相似,并且适用于大数据,甚至比 RDD 更快。
推荐阅读
- javascript - 如何在我的样式化 React 组件中为我的 table、tr、th 和 td 元素添加边框?
- python - 如何在记事本中创建字体样式和字体大小?
- chart.js - 在chartjs中添加指向y轴标签的链接
- javascript - React-csv 选择列并删除标题
- python - 使用while循环python查找下一个元素
- react-native - 如何在本机应用程序中设置 css less
- json - 从 unix 脚本中给定的文件名列表创建一个 json
- javascript - TypeError:“属性”是只读的
- java - 在Java中计算双位小数点后的位数的程序
- php - LDAP 用户身份验证适用于 CN,但不适用于 sAMAccountName