javascript - 如何提取与 HTML 文档中可能没有句点的 2 个单词匹配的句子
问题描述
我这里有多个 URL,我需要用单词提取句子:(live
变体)和work
. (几乎可以工作的公式和理想结果的例子——我在第 4、5 和 6 行遇到问题)
https://docs.google.com/spreadsheets/d/1dLJfaFA_-XuVlPmS0VN0d8IR4nkUsXpCxpUwZvgLXx4/edit#gid=0
我能够使用正则表达式提取大部分但不是全部,这是我的正则表达式匹配公式:
[^.>""]*[Ll]iv(e |es|e,|ing).* work.*(?=(<|\.|!|&))
我可以使用这个匹配公式:
>.*[Ll]iv(e |es|e,|ing).* work.*<
但是,它会截断句子并且与其他 html 文档不匹配。
希望获得适用于所有 URL 的匹配公式。我已经为此工作了几天,但找不到解决方案。提前致谢!
解决方案
找到公式:
(>|"")[^<>""]*[Ll]iv(e |es|e,|ing).* work.*(?=(<|\.|!|&))
然后从那里过滤掉不需要的字符
推荐阅读
- window - OpenTok Windows SDK 2.16.6 音频未流式传输
- javascript - 为什么我想要的字符串没有用 javascript 中的另一个替换?
- node.js - 搜索数组 MongoDB NodeJS
- python - 将 none 值替换为同一列表中的值
- javascript - d3js 无法访问数据索引
- reinforcement-learning - 在 openai gym 和 stable-baselines 中为无效动作添加逻辑的问题
- c# - 无法使用 asp.net MVC 应用程序连接到 TFS
- symfony - Symfony 3 控制台异常日志仅显示在控制台上
- android - Android - 在选择器中使用属性颜色
- solr - 在 Solr 中模糊搜索整个文本的一部分