python - 使用正则表达式从熊猫数据框中的单元格中提取日期
问题描述
我有以下数据框
column 1 Description Extracted Data
date January 15,2020 is important day
我想得到以下结果
column 1 Description Extracted Data
date January 15,2020 is important day January 15,2020
df.loc[df['column 1']=='date','Extracted Data']=df['Description'].str.extract(r'((January)|[/. ])|(\d{1,2}|[/., ]|\d{4})')
但我没有得到想要的结果。相反,我得到了所有 NaN 值的数据框。我怎样才能解决这个问题?
解决方案
使用多点.*
和数字。
import pandas as pd
df = pd.DataFrame({'column 1': ['date'], 'Description': ['January 15,2020 is important day']})
df['Extracted Data'] = df['Description'].str.extract(r'(.*,\d{4})')
输出:
column 1 Description Extracted Data
0 date January 15,2020 is important day January 15,2020
推荐阅读
- css - 样式 ReactSelect 菜单以显示所有选项而没有垂直滚动
- python-3.x - Antlr4 解析器在 Python 3.7 中因错误放置的令牌而过早结束
- javascript - 为什么我不断收到此错误:错误:电子邮件格式错误?
- c# - 来自多个列和表的 linq 最大日期
- html - 当伪选择器应用负边距时,两个元素(块和内联)显示差异
- angular - 无法使用 rxjs 将 firebase 文档映射到总数
- azure-devops - 我们可以将数据从 azure 文件共享复制到 azure 工件吗
- c# - C#,过滤自定义属性属性值
- javascript - 如何根据 php 中另一个下拉列表中的选择自动填充下拉列表?
- python - 如何避免 Pandas 中的自动舍入