python - 在 Pyspark 中使用 pandas 函数
问题描述
我正在尝试用 Pyspark 重写我的 Python 脚本(Pandas),但我找不到一种方法来应用我的 Pandas 函数,以提高 Pyspark 函数的效率:
我的功能如下:
def decompose_id(id_flight):
my_id=id_flight.split("_")
Esn=my_id[0]
Year=my_id[3][0:4]
Month=my_id[3][4:6]
return Esn, Year, Month
def reverse_string(string):
stringlength=len(string) # calculate length of the list
slicedString=string[stringlength::-1] # slicing
return slicedString
我想将第一个函数应用于数据帧的一列(在 Pandas 中,我得到一行三个元素)第二个函数在验证数据帧的一列条件时使用
有没有使用 Pyspark 数据框应用它们的方法?
解决方案
推荐阅读
- mysql - 对从 sql 的非规范化数据创建的 Elastic Search 数据(超过 10000 条记录)实现分页?
- html - 如何将非 nbsp 重新定义为 nbsp
- iis - 如何摆脱 URL 中的 8080 端口?
- laravel - Laravel Single Job Class 被多次分派,不同的参数被覆盖
- r - 当使用 %dopar% 在 { 中出现错误:任务 1 失败 - “无法打开连接”
- google-bigquery - 日期 SQL 到 8 月 31 日
- reactjs - 如何配置 React 代理?
- drake - 创建带有单个链接移动的 sdf 文件
- spring-boot - Maven 属性扩展仅适用于基础 application.properties
- excel - 如何在 Excel 中格式化四位数字 + 特殊小数