javascript - 输入 URL 并扫描网页以查找特定单词(请求规划建议)
问题描述
背景
我想在我的网站上创建一个在线工具,其中:
- 用户输入一个 URL(或用户输入一个复制/粘贴的文本块)并单击提交按钮;
- 表单从输入的 URL 的网页中提取文本;
- 扫描特定单词的文本(在我将创建的列表上);
- 输出这些特定词的点击次数以及这些词出现在网页上的次数;
- 最后在页面底部给出报告和建议。
如同...
它与那些关键字密度检查器或字数统计网站非常相似,但是当我检查这些页面的页面来源时,我不太能够对它们进行逆向工程以找出答案。我发现的 JS 并不完整,这让我想知道它们背后的一些“大脑”是否出现在单独的文件(PHP 文件?)中。
从哪儿开始?
在修补网站 13 年后,我对 HTML 和 CSS 有一定的经验,但对 JS 和 PHP 有一般(业余爱好者/非高级)的了解。
我认为我需要首先创建一个 HTML 表单、div 和按钮,然后创建验证 URL 的 JS,从 URL 中提取信息,分析它,然后提供建议。我需要使用 AJAX、PHP 等吗?
在这个阶段,我只是请求从哪里开始的信息。我搜索了 StackOverflow 论坛和不同的 Google 搜索,但并没有完全找到我要搜索的内容,因此欢迎一些专家提供指导意见。如果有人知道有关此主题的任何其他示例或教程,我会欢迎任何有用的链接。
同样,我想做繁重的工作,这样我就可以从这个过程中学习。
提前致谢。
解决方案
为了简单起见,我将创建一个 PHP api。有一个脚本,它将根据用户的操作调用其他脚本。要处理 URL 抓取,使用 CURL 就足够了。匹配部分可以只是常规的旧字符串比较或花哨的 KMP 算法,所有这些都将在 PHP 中。
推荐阅读
- c++ - 如何在没有 X 服务器或显示的情况下访问 INTEL_performance_query OpenGL 扩展?
- bash - Heroku 没有将正确的参数传递给 Docker 的入口点
- java - 类的返回类型返回什么?
- abap - 如何在 ALV 显示中输入列名
- asp.net-core - Clean Architecture 中 ASP.NET Core 域层中的用户实体
- mql4 - 如何避免 mql4 指标中的数组超出范围错误
- sql-server - 将 CURSOR 转换为 SELECT - 将父表值作为参数发送到连接表返回函数
- javascript - 有没有什么方法可以一起使用 Jest 和 jest-dom 而不必进行编译?
- amazon-web-services - aws如何从查询日志获得的日志中过滤掉所有使用的dns查询?
- apache-spark - 使用 kafka 在 Kubernetes 上进行 Spark 流式传输