python - 如何从 pyspark 数据框列中删除软连字符或长破折号
问题描述
无法拆分具有长破折号的 Experience_datesEmployeed 列。如何拆分字符串或如何从列值中删除长破折号。
我尝试使用 UTF-8 编码读取文件。
df_final=spark.read.options(header="True",inferSchema='True',delimiter=',').option("encoding", "UTF-8").csv("/path/csv")
尝试使用 8212,8211,2014 之类的 unicode 进行拆分。
df_final.withColumn('Splitted', split(df_final['Experience_datesEmployeed'], u'\u2014')[0]).show()
示例 CSV 文件
fullName,Experience_datesEmployeed,Experience_expcompany,Experience_expduraation, Experience_position
David,Feb 1999 – Sep 2001, Foothill,2 yrs 8 mos, Marketing Assoicate
David,1994 – 1997, abc,3 yrs,Senior Auditor
David,Jun 2020 – Present, Fellows INC,3 mos,Director Board
David,2017 – Jun 2019, Fellows INC ,2 yrs,Fellow - Class 22
David,Sep 2001 – Present, The John D.,19 yrs, Manager
解决方案
推荐阅读
- c++ - Crisis Nanosuit 中的多个纹理 - 使用 Assimp 加载模型
- java - Could not get resource firebase-measurement-connector-impl-17.0.5-javadoc.jar
- python - 如何在 Python 中修复 SQLite 中的语法错误
- javascript - 如何使用 jQuery 从网页中删除复制内容的内联样式?
- xamarin.forms - API 27 中未显示本地通知
- android - 从另一个 Fragment 调用元素
- sql-server - MS SQL 作业目标服务器问题
- java - Maven 阴影插件 - 无法执行目标
- c++ - 将 OCTAVE Griddata 函数移植到 iOS
- python - 如何创建以键为元音且值为 0 的字典?