首页 > 解决方案 > 如何从 .t​​xt.bz2 文件创建 Spark DataFrame

问题描述

请问如何从名为“/datos/cite75_99.txt.bz2”的 .txt.bz2 文件创建 Spark DataFrame?

源文本文件的结构如下:

"CITING","CITED"
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889

所需的输出是一个 Spark DataFrame,它计算每个引用的数量,如下所示:

 +--------+------+
 |NPatente|ncitas|
 +--------+------+
 | 3060453|  3   |
 | 3390168|  6   |
 | 3626542| 18   |
 | 3611507|  5   |
 | 3000113|  4   |

期待你的答复。

谢谢!

标签: pyspark

解决方案


你可以直接在 spark 中阅读 Spark 支持 bz2 压缩。

%pyspark
df = spark.read.csv(path_to_file)

推荐阅读