首页 > 解决方案 > 如何提取与 HTML 文档中可能没有句点的 2 个单词匹配的句子

问题描述

我这里有多个 URL,我需要用单词提取句子:(live变体)和work. (几乎可以工作的公式和理想结果的例子——我在第 4、5 和 6 行遇到问题) https://docs.google.com/spreadsheets/d/1dLJfaFA_-XuVlPmS0VN0d8IR4nkUsXpCxpUwZvgLXx4/edit#gid=0

我能够使用正则表达式提取大部分但不是全部,这是我的正则表达式匹配公式:

[^.>""]*[Ll]iv(e |es|e,|ing).* work.*(?=(<|\.|!|&))

我可以使用这个匹配公式:

>.*[Ll]iv(e |es|e,|ing).* work.*<

但是,它会截断句子并且与其他 html 文档不匹配。

希望获得适用于所有 URL 的匹配公式。我已经为此工作了几天,但找不到解决方案。提前致谢!

标签: javascriptregexgoogle-apps-scriptgoogle-sheets

解决方案


找到公式: (>|"")[^<>""]*[Ll]iv(e |es|e,|ing).* work.*(?=(<|\.|!|&))

然后从那里过滤掉不需要的字符


推荐阅读