首页 > 解决方案 > 如何在第二次出现模式后解析文本部分?

问题描述

我正在尝试在已解析的 HTML 页面中获取文本部分。文本在页面中多次出现的模式(“项目 c”)之后开始(即:有 3 个“项目 c”)。

当我运行我的代码时,我只解析最后一次出现,而我只需要第一个。

这是第一次出现的 HTML 结构和我用来查找文本开头和结尾的一些代码:

<p>
   <font style="display:inline;">Item c.&nbsp;&nbsp;Mike’s bike</font>
</p>...
a <- grep("^Item\\s{0,}c.\\s{0,}M", f.text, ignore.case = TRUE)
b <- grep("^Item\\s{0,}d.\\s{0,}Q", f.text, ignore.case = TRUE)

我尝试了部分单词的完全匹配,但它并不总是有效。

我可以使用索引/更通用的匹配技巧吗?

先感谢您

免责声明:R 相当新:)

标签: rregex

解决方案


推荐阅读