python - 在 ProperCase 和换行符中提取两个字符串之间的单词
问题描述
我有以下数据框对不起混乱(它是从网站上刮下来的)
df = pd.DataFrame({'TEXT': ['Product Type:\n \n \n Fish\n \n \n \n \n Variety:\n \n \n Salmon\n \n \n \n \n Style:\n \n \n FROZEN\n \n \n \n \n Shape:\n \n \n Sliced\n \n \n \n \n Part:\n \n \n Fillet\n \n \n','Product Type:\n \n \n Fish\n \n \n \n \n Variety:\n \n \n Salmon\n \n \n \n \n Style:\n \n \n FROZEN\n \n \n \n \n Freezing Process:\n \n \n IQF\n \n \n \n \n Shape:\n \n \n Block\n \n \n \n \n Part:\n \n \n Body\n \n \n \n \n Certification:\n \n \n BRC, FDA, HACCP\n']})
我想提取不同的参数。例如,我希望输出为
df['ProductType']="Fish"
我试过这个:
df['ProductType']=df['TEXT'].str.extract("(?=Type\:)(.*)(?=Variety\:)").astype(str)
但它只是输出NaN。对不起,如果它太明显了,我今天从正则表达式开始
解决方案
推荐阅读
- flutter - Flutter:如何将可访问性焦点集中到自定义应用栏
- node.js - 在 JSDOM 中扩展元素方法
- javascript - 如何从传递给侦听器的回调中访问状态挂钩值?
- django - 主管/Gunicorn/Django:主管无法运行 gunicorn(启动时“已修复”)
- python-3.x - 我如何在 python 中列出 30 天以上的 aws 安全组?
- javascript - 我怎样才能生成颜色(不是偶然),使它们具有不同的颜色,而不是阴影?
- php - 如何在 paypal 中创建订单并同时发送电子邮件
- python - 您可以在模型集合中指定类权重吗?
- nativescript - Nativescript Angular让应用程序在后台播放
- python - 使用 Python PyPDF2 从扫描的 pdf(图像)中提取文本