html - 在html中保存网页内容的问题
问题描述
我在推特上请求查找特定时期的推文。之后我开始向下滚动页面到最后一个推特。接下来我正在保存此页面的 html 代码(右键单击 -> 另存为...)。此 html 文件中仅显示最新的推文。如何以html格式保存所有推文?
解决方案
Twitter 可能会动态地添加/删除他们的 html 代码。很可能它使用无限滚动和看似无穷无尽的页面。使用浏览器时,您只能看到所有推文的“快照”,并且永远无法保存所有推文。我可以通过使用浏览器的检查器然后滚动来证明或检查这一点。我从未尝试过,但在代码检查器中,您可以看到添加/删除或隐藏的内容。Javascript 对您看到的内容和可以保存的内容负责。
使用 Firefox Ctrl+Shift+CI 找到标记为 'aria-label="Timeline: Your Home Timeline" '的 HTML 代码。在它下面,您可以找到可见的推文。当您滚动时,您只会看到可以保存在文件中的那些。这里只有 11 条推文。当您滚动时,会添加和删除一个数字,但只有一个减少的数字可用。
查看所有推文的唯一方法是当 Twitter 允许您访问他们的推文数据库时,可能是通过程序员界面,但仍然会有太多无法保存所有推文。
推荐阅读
- html - `span`标签破坏了文本的垂直对齐方式?
- excel - 如果单元格包含特定字符串,如何从一个表中创建下拉列表?
- web - 如何将 base64 编码的 cookie 解析为它们的正常表示?
- java - 如何优化 zip 压缩时间
- java - 如何在 Spring Boot 中关闭 ThreadPoolTaskExecutor 的特定任务(进程)?
- javascript - 反应原生 - 调试 [object Object] handleException - Observable
- arrays - Swift - 从 Firebase 检索数组中的 getdocuments
- mysql - MySQL 8.0.16 (Windows) 组复制新设置:无法添加第二个成员
- javascript - dc.js - 在一组中一起渲染两个对象(一个图表 - 渲染,一个形状 - 不)?
- elasticsearch - 弹性搜索中的 primary_term 到底是什么?