首页 > 解决方案 > 用于从大段落中获取有限内容的机器人

问题描述

我需要这里专家的一些意见。我需要用普通的 javascript/jquery 创建机器人/脚本,它可以从大型数据集中以段落的形式挑选有限的内容。Javascript 的原因是我将创建 HTML 文件,然后在该文件上编写 javascript 代码,这样这将是语言/机器独立的。这将在每台机器上运行,而无需安装或设置依赖项。

假设这是段落

Lorem Ipsum 只是印刷和排版行业的虚拟文本。自 1500 年代以来,Lorem Ipsum 一直是行业的标准虚拟文本,当时一位不知名的印刷商采用了一种类型的厨房并将其加扰以制作类型样本书。它不仅经历了五个世纪,而且经历了电子排版的飞跃,基本保持不变。它在 1960 年代随着包含 Lorem Ipsum 段落的 Letraset 表的发布而流行起来,最近还随着 Aldus PageMaker 等桌面出版软件(包括 Lorem Ipsum 的版本)而普及。

所以在这个段落中,第二行涉及到 1500 年代,然后是 4 行,即 1960 年代(可以选择或理解单词和数字)

因此,我的脚本将分割整个段落并从提供的段落中返回重要的单词,如下所示

自 1500 年代以来,Lorem Ipsum 一直是业界标准的虚拟文本。它在 1960 年代随着包含 Lorem Ipsum 段落的 Letraset 表的发布而普及。

像这样的东西。你们能否分享输入并阐明我必须关注和注意哪些事情才能获得这种结果的概念。

简而言之,我必须缩短 4-5 行。

注意:只是想在开始之前得到一些想法,因为最好在开始之前讨论。提前感谢您的互动和投入

标签: javascriptjqueryweb-scraping

解决方案


推荐阅读