arrays - 从火花数据框中提取值的 ndarray
问题描述
我有一个 pyspark sql 数据框,我想从中提取一个 ndarray 值。使用熊猫数据框,我知道我可以通过运行来实现:
coordinates = df[['latitude','longitude']].values
array([[52.375816, 4.964433],
[52.375816, 4.964433],
[52.375816, 4.964433],
...,
[52.362133, 4.908233],
[52.362133, 4.908233],
[52.362133, 4.908233]], dtype=float32)
我应该如何在火花中做到这一点?
解决方案
转换为熊猫数据框并使用您在问题中显示的方法应该可以完成这项工作:
df[['latitude','longitude']].toPandas().values
或者你可以使用
import numpy as np
np.array(df[['latitude', 'longitude']].collect())
推荐阅读
- ios - 如何使用 Firebase 正确配置 Flutter 应用程序?
- angular - 当后端接受字典时,如何在服务类中的 Angular 8 Http get 方法中发送数据
- apache - 呈现客户端证书和密钥时出现 SSLError(SSLCertVerificationError)
- azure - 是否可以使用服务原则对 Azure DevOps 分析视图进行身份验证?
- javascript - 如何比较当前字符串与javascript中给定的n个字符串相同
- python - “使用功能打开”失败
- c++ - 在 main() 之前调试 Windows 服务失败(由 LocalSystem 用户运行时出现错误 1053)
- azure-active-directory - Azure AD B2C - 在社交登录期间如何在合并之前询问并验证现有本地帐户的密码
- opengl - 用 pbo 生成 mipmap 太慢?
- php - 使用 php 和 ajax 插入和更新 sql 查询