r - 从 URL 链接/随机字符串中提取日期
问题描述
我想从一列 URL 链接(5,000 行原始数据)中提取日期。URL 示例包括:
是否有任何 R 代码可以学习模式并将日期提取到另一列?
谢谢你。
不同长度的文本可能是个问题...
解决方案
至少从您的样本来看,日期似乎是唯一的数字,并且它们始终遵循-
. 您可以使用正则表达式捕获它们:
urls <- c('http://en/Pages/Introduction-More_Details-20191103.com',
'http://en/Pages/United-Kingdom-EU-20190502.com',
'http://en/Pages/France-20190612.com',
'http://en/Pages/telephone-in-the-UK-and-USA-190405.com')
gsub('(.*)-(\\d{6,8})(.*)', '\\2', urls)
#[1] "20191103" "20190502" "20190612" "190405"
或者
gsub('(.*)-(\\d{6,8})(\\.com)', '\\2', urls)
然后将其保存到新列中。显然,获取所有网址的难易程度取决于您拥有多少不同的格式。
推荐阅读
- wordpress - 如何修复 wordpress 主题中的白屏?
- python - ImportError:无法从“exchangelib.folders”导入名称“消息”
- python - 遍历矩阵以获取矩阵切片 Python 的平均值
- javascript - 无法渲染将 React 状态传递给另一个组件的道具的组件
- javascript - 如何在树结构节点内或鼠标悬停在 D3 中添加进度条
- mysql - 如何按同一 ID 的不同负责人姓名进行分组
- angularjs - Angularjs 1.6 注入器:Internet Explorer 10 上的 nomod 错误消息
- php - 如何使用实现 Symfony 4 UserCheckerInterface 的类中的 addFlash 进行重定向
- docker - 无法理解 Docker 服务端口发布
- selenium - 如何使用 selenium 从页面的一行获取值并在其他页面中提供相同的值?