javascript - 从解析的 html 中获取文本值
问题描述
我正在尝试从其他站点获取文本我正在尝试使用https://multiverso.me/AllOrigins从站点中抓取文本。
该站点以字符串格式获取页面的所有内容。例如,我试图从 URL: TOI link获取数据。我正在使用这段代码:
$.getJSON('http://allorigins.me/get?url=https%3A//timesofindia.indiatimes.com/sports/asian-games/such-a-long-walk-from-living-in-cowshed-to-asiad-medallist/articleshow/65361646.cms&callback=?', function(data){
console.log(data);
});
返回值为:
{contents: "<!DOCTYPE HTML><html xmlns:xslthelper="com.times.u…deoSwitch" type="hidden" value="1"></body></html>", status: {…}}
它给了我一个字符串的结果。但我只想发短信。我尝试了以下方法:
$.getJSON('http://allorigins.me/get?url=https%3A//timesofindia.indiatimes.com/sports/asian-games/such-a-long-walk-from-living-in-cowshed-to-asiad-medallist/articleshow/65361646.cms&callback=?', function(data){
// $('#output').html(data.contents);
console.log(data);
var str = data.contents;
html = $.parseHTML(str)
console.log($(html).find('h2').text());
});
这仅返回一个 h2 标签,但我想获取网站上的所有文本。
当我使用 body 标签时,我没有得到任何回报。在这个问题中,jQuery 获取页面中所有元素的文本
我可以看到接受的答案是说我应该使用:
$('body').text()
有什么方法可以从网站上获取所有文本,只是文本而不是 javascript 或其他任何内容。
例如看看这个:Demo Of fetching text from site
在此演示中,您可以看到当我粘贴 url 时,我可以获得所有文本
解决方案
推荐阅读
- highcharts - How to remove Board and HR/CFO from Highchart organization?
- r - 如何有条件地从向量中找到多个值?
- regex - RegEx:从匹配中排除模式
- c++ - 错误:从 'int (*)(int, int)' 到 'int' 的无效转换 [-fpermissive]
- redis - 将 Redis 从 v3.2.12 更新到 v6
- c - 使用对角线方法的并行 LCS 计算
- r - CCA 仅显示前 4 个变量
- spring-boot - 加载属性文件的单元测试用例
- python-3.x - 或工具拾取交付问题不适用于从数据库导入距离矩阵
- docker-compose - Traefix v1.7 静态证书和动态 acme 证书