首页 > 解决方案 > 从 URL 链接/随机字符串中提取日期

问题描述

我想从一列 URL 链接(5,000 行原始数据)中提取日期。URL 示例包括:

是否有任何 R 代码可以学习模式并将日期提取到另一列?

谢谢你。

不同长度的文本可能是个问题...

标签: r

解决方案


至少从您的样本来看,日期似乎是唯一的数字,并且它们始终遵循-. 您可以使用正则表达式捕获它们:

urls <- c('http://en/Pages/Introduction-More_Details-20191103.com',
          'http://en/Pages/United-Kingdom-EU-20190502.com', 
          'http://en/Pages/France-20190612.com',
          'http://en/Pages/telephone-in-the-UK-and-USA-190405.com')

gsub('(.*)-(\\d{6,8})(.*)', '\\2', urls)
#[1] "20191103" "20190502" "20190612" "190405" 

或者

gsub('(.*)-(\\d{6,8})(\\.com)', '\\2', urls)

然后将其保存到新列中。显然,获取所有网址的难易程度取决于您拥有多少不同的格式。


推荐阅读