python - 使用嵌套 Python 字典和 Numpy 数组从 Pandas 数据框创建 Spark 数据框
问题描述
我有一个包含 numpy 数组和字典的 pandas 数据框:
results_df.head(1)
best_params cv_results
{'max_depth': 3, 'min_impurity_decrease': 0.2} {'mean_fit_time': [0.6320801575978597, 1.08473]}
我希望能够创建一个包含类似嵌套结构的 Spark Dataframe(如果需要,它们可以是 Spark 对象),我尝试了:
spark.createDataFrame(results_df)
TypeError: not supported type: <class 'numpy.ndarray'>
解决方案
一种解决方案是使用名为 koalas 的数据块支持模块。性能也相当不错。有关考拉的更多信息:https ://koalas.readthedocs.io/en/latest/
import koalas as ks
spark_df = ks.from_pandas(pandas_df)
考拉就这么简单!
推荐阅读
- sonarqube - SonarQube jenkins 要求输入登录名和密码
- python - matplotlib中2 y坐标之间的阴影区域
- sql - SSAS - 透视查询结果
- c# - Simple.OData.Client 插入对象及其关系
- javascript - AngularJS以正确的方式访问localStorage
- javascript - 在 Javascript 块中调用 R 变量(在 Rstudio 中)
- javascript - jsPDF - .addHTML 不是函数
- linux-kernel - linux内核打开文件时使用的kmalloc在哪里?
- java - 发生“流关闭”异常
- apostrophe-cms - 在撇号 CMS 中使用多个嵌套模块