apache-spark - 如何使用自然语言处理从文本pyspark中提取一个简单的字符串
问题描述
我有一个包含 4 列的 pyspark 数据框。一列包含一个文本(数据是非结构化的)。下面是该列的数据示例:
data = [('Ambitioni dedisse scripsisse iudicaretur',)
,('Cras mattisiudicium',)
,('purus sit amet fermentum',)
,('Donec sed odio operae- NORMAL)
,('eu vulputate felis - A300B4-61 - MP 13219',)
,('Praeterea iter est - quasdam res - MP 28180',)
,('quas ex communi - ,)
,('At nos hinc posthat CONTROL - FADEC',)
,('sitientis piros Afros. Petierunt',)
,('uti sibi concilium totius Galliae-2 - GENERATION',)
,('in dim - V105X )
,('Cras mattis iudicium',)]
df = spark.createDataFrame(data, ["text"])
预期输出示例:
Interest Column == Exemple data new_column
--------------------------------------------------------------------------------------------------------------------------------------|----------------------------
Cras mattis iudicium -INTRODCE A NEW STANDARD
------------------------------------------------------------------------------------------------------------------------
Praeterea iter est
------------------------------------------------------------------------------------------------------------------------
Cras mattis iudicium purus sit amet fermentum.
------------------------------------------------------------------------------------------------------------------------
class to truncate the text ---------------------------------------------------------------------------------------------------------|----------------------------
Ambitioni dedisse -
------------------------------------------------------------------------------------------------------------------------
For left, right, ------------------------------------------------------------------------------------------------------
TCAS II - Praeterea iter est |
------------------------------------------------------------------------------------------------------------------------
Donec sed odio operae
------------------------------------------------------------------------------------------------------------------------
Ambitioni dedisse |
------------------------------------------------------------------------------------------------------------------------
My question:
Thank you
解决方案
推荐阅读
- css - Lit-element - :host 选择器未在 Safari 上触发渲染
- javascript - 将第一个字符输入输入时,getPostDelimiter() 中的 Cleave.js 错误
- html - 如何在html模板中使用for循环
- reactjs - React TypeScript - 为什么在尝试使用 && 运算符有条件地渲染时,Boolean() 的行为与 double NOT (!!) 运算符不同?
- yaml - GitHub Actions - 您的 YAML 语法有错误
- javascript - DOM 问题:JS FOR 循环是无止境的且无功能的
- javascript - 通过 URL 访问和更新内存中的数据
- html - 如何在引导轮播中设置内部 div (img) 的高度
- python - 将变量添加到 ! jupyter中的命令
- javascript - 将日期范围打包到时间线行中 Javascript