首页 > 解决方案 > 使用嵌套 Python 字典和 Numpy 数组从 Pandas 数据框创建 Spark 数据框

问题描述

我有一个包含 numpy 数组和字典的 pandas 数据框:

results_df.head(1)

best_params                                    cv_results                                
{'max_depth': 3, 'min_impurity_decrease': 0.2} {'mean_fit_time': [0.6320801575978597, 1.08473]} 

我希望能够创建一个包含类似嵌套结构的 Spark Dataframe(如果需要,它们可以是 Spark 对象),我尝试了:

spark.createDataFrame(results_df)
TypeError: not supported type: <class 'numpy.ndarray'>

标签: pythondataframeapache-sparkpysparkapache-spark-sql

解决方案


一种解决方案是使用名为 koalas 的数据块支持模块。性能也相当不错。有关考拉的更多信息:https ://koalas.readthedocs.io/en/latest/

import koalas as ks
spark_df = ks.from_pandas(pandas_df)

考拉就这么简单!


推荐阅读