html - 如何从 html 文件中 grep 特定日期
问题描述
我有一个 HTML 文件,其中有许多以 dd/mm/yy 格式分布的日期。我正在寻找一种从中检索特定日期的方法。
输入:
Released: 08/08/2019</td>
<td>06/26/2019</td>
Released: 03/09/2019</td>
<td>14/29/2019</td>
我找到了一种从文件中检索所有日期的方法:
grep -o "[0-9]\{2\}/[0-9]\{2\}/[0-9]\{4\}"
输出:
08/08/2019
06/26/2019
03/09/2019
14/29/2019
但是,我需要过滤这些日期并只选择具有这种格式的日期:
<td>dd/mm/yyyy</td>
所以从上面的输入,我需要这个输出:
06/26/2019
14/29/2019
解决方案
我总是推荐使用 HTML/XML 解析器。如果这是不可能的尝试 GNU grep 和 Perl 兼容的正则表达式 (PCRE):
grep -Po '(?<=<td>)[0-9]{2}/[0-9]{2}/[0-9]{4}(?=</td>)' file
输出:
2019 年 6 月 26 日 2019 年 14 月 29 日
推荐阅读
- ios - 从中心转换 UIView
- javascript - 在 jquery get() 方法中遵循重定向 URL
- bash - 在 bash 中使用查找/执行命令设置文件格式
- python - pypi:如何检查包是否正在使用轮子
- python - Cupy 会自动使用 cuda 和 gpu 吗?
- python - 如何使序列化器中的字段既可读又可写
- ruby-on-rails - 查询作为 has_many 子集的 has_one
- html - 如何使这个可搜索的组合框可访问?
- javascript - 如果数组包含innerHTML,则更改单元格背景颜色
- c# - 在从数据库获取之前格式化 unicode