scala - 将 JSON 从 URL 转换为数据帧(Pyspark 和 Scala)
问题描述
我有一个网址,例如:
the_given_URL = https://blahblah.blahblah.com/raw/AAA/B_B_B/C-C/DD_DD/W/config/smth.json?token=AAArebNfNdB5Ypd9de2NH1ifSCzqA-aEks5dTcabwA%3D%3D
其中包含 Json 格式的数据,可能会定期更新。
我找不到将其转换为数据框的方法。Scala 和 Pyspark 的方式都可能会有所帮助。
我尝试过类似的东西
val df = sqlContext.read.json("the_given_URL")
但我收到以下错误:
19/08/05 17:43:13 WARN FileStreamSink: Error while looking for metadata directory.
java.io.IOException: No FileSystem for scheme: https
请考虑我得到的错误是针对给定的 URL 的。
解决方案
您应该使用 requests 库来访问该网页。这应该可以帮助您启动
import json
import requests
req = requests.get("path to json")
df = sqlContext.createDataFrame([json.loads(line) for line in req.iter_lines()])
推荐阅读
- python - 使用 gstreamer 和 opencv 的黑屏
- amazon-dynamodb - 如果内部没有属性更改,DynamoDB 二级索引是否会被重写?
- iis - IIS 站点无法创建(不需要的)App_Data 目录
- insert - 使用 openpyxl 插入列
- c++ - 将 std::bind 创建的对象传递给函数的正确方法是什么?
- gradle - 有没有简单的方法来删除 gradle?
- python - 对地图中的玩家和方块的碰撞检测
- xml - XSL 在同一个文件中合并多个 XML 记录
- python - 将 pandas 语句转换为 numpy 语句
- python - Python 相关导入测试我的理智