apache-spark - 使用python将pickle(.pck)文件转换为spark数据帧
问题描述
你好! 亲爱的成员我想使用 Bigdl 训练模型,我有泡菜对象文件(,pck)形式的医学图像数据集。泡菜文件是 3D 图像(3D 数组)
我试图通过使用 BigDl python API 将其转换为 spark 数据帧
pickleRdd = sc.pickleFilehome/student/BigDL-
trainings/elephantscale/data/volumetric_data/329637-8.pck
sqlContext = SQLContext(sc)
df = sqlContext.createDataFrame(pickleRdd)
它抛出错误
Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.runJob.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 2.0 failed 1 times, most recent failure: Lost task 0.0 in stage 2.0 (TID 2, localhost, executor driver)
: java.io.IOException: file:/home/student/BigDL-trainings/elephantscale/data/volumetric_data/329637-8.pck not a SequenceFile
在这两种情况下,我都在 python 3.5 和 2.7 上执行了这段代码,我得到了错误
解决方案
推荐阅读
- c# - .NET 事务、Mongo DB、2 阶段提交与单阶段提交
- java - 如何在特定文件扩展名打开时启动 Java 应用程序或与现有 Java 进程通信?
- sql - Oracle 查询 - 按城市划分的年度人口趋势
- python-unittest - 在 Python 2.7 中通过 unittest.TestCase 模拟 datetime.now()
- machine-learning - pytorch 如何通过 argmax 反向传播?
- apache - xampp-control“开始”操作按钮运行 httpd.exe 但不会更新控制窗口
- django - Django Q 查找返回在两个模型中都找到的重复项
- python - 'gi.repository.GObject' 对象在执行 cx_freeze 构建的包时没有属性'threads_init'
- mysql - springboot mysql + jpa 通讯链接失败
- r - 提取两个字符之间的部分文本字符串