首页 > 解决方案 > 从火花数据框中提取值的 ndarray

问题描述

我有一个 pyspark sql 数据框,我想从中提取一个 ndarray 值。使用熊猫数据框,我知道我可以通过运行来实现:

coordinates = df[['latitude','longitude']].values

array([[52.375816,  4.964433],
       [52.375816,  4.964433],
       [52.375816,  4.964433],
       ...,
       [52.362133,  4.908233],
       [52.362133,  4.908233],
       [52.362133,  4.908233]], dtype=float32)

我应该如何在火花中做到这一点?

标签: arraysdataframeapache-sparkpyspark

解决方案


转换为熊猫数据框并使用您在问题中显示的方法应该可以完成这项工作:

df[['latitude','longitude']].toPandas().values

或者你可以使用

import numpy as np

np.array(df[['latitude', 'longitude']].collect())

推荐阅读