pyspark - 如何从 .txt.bz2 文件创建 Spark DataFrame
问题描述
请问如何从名为“/datos/cite75_99.txt.bz2”的 .txt.bz2 文件创建 Spark DataFrame?
源文本文件的结构如下:
"CITING","CITED"
3858241,956203
3858241,1324234
3858241,3398406
3858241,3557384
3858241,3634889
所需的输出是一个 Spark DataFrame,它计算每个引用的数量,如下所示:
+--------+------+
|NPatente|ncitas|
+--------+------+
| 3060453| 3 |
| 3390168| 6 |
| 3626542| 18 |
| 3611507| 5 |
| 3000113| 4 |
期待你的答复。
谢谢!
解决方案
你可以直接在 spark 中阅读 Spark 支持 bz2 压缩。
%pyspark
df = spark.read.csv(path_to_file)
推荐阅读
- django - 如何在 django rest 框架的 serilaizer 中获取 lookup_url_kwarg
- c# - PHP 的 utf8_decode 和 C# 的 Encoding.UTF8.GetString 为相同的输入返回不同的输出
- python-3.x - 在 Python 3 中重新声明具有相同名称的类
- vba - 将一个帐户客户端规则复制到所有客户端规则
- draftjs - 行间距反应草稿所见即所得
- javascript - 每次单击按钮时如何移动画布对象?
- c++ - 访问冲突读取位置...,这让我很困惑
- android - 在颤振中,我正在使用 AlertDialog,它有 2 个操作按钮 Ok 和 Cancel,单击 Ok 时,我想转到新屏幕并结束当前屏幕?
- microsoft-edge - Edge Chromium 无法从“Window”读取“localStorage”属性:拒绝访问此文档
- kubernetes - 如何降级 GKE 主机并退出快速通道