java - 我如何使用 Jsoup 抓取数据
问题描述
我正在创建一个应用程序,并在其上通过网络抓取此站点https://www.bbc.co.uk/search?q=handsworth我想知道如何将图像、标题和描述从网络上抓取为代码下面我可以得到页面的标题。
StringBuilder newsContent = new StringBuilder();
try {
Document page = Jsoup.connect("https://www.bbc.co.uk/search?q=handsworth").get();
String title = page.title();
newsContent.append(title).append("\n");
} catch (IOException e) {
newsContent.append("Error: ").append(e.getMessage()).append("\n");
}
解决方案
你不能。https://www.bbc.co.uk/search?q=handsworth中的DOM是由 javascript 动态生成的。Jsoup 不执行 javascript。
你可以做的是使用真正的浏览器进行抓取,例如使用 Selenium
推荐阅读
- arrays - Vue: Array is only updated on console, not on screen
- asp.net-mvc - Kendo Grid:网格内翻译文本的问题
- c# - 从我的 SQL 数据库中的数据在 RichTextBox C# 中创建表
- sql - 在结果表中的 SQL 中添加附加列“TYPE”
- java - flink:无法初始化类 org.apache.hadoop.hdfs.protocol.HdfsConstants
- csv - Odoo 10 .csv 文件导入
- flutter - 非小部件类上的 ChangeNotifier
- c# - C# Outlook Mailitem ContextMenu 和 Ribbon 不能一起工作(只能分开)
- angular - ngx-extended-pdf-viewer 无法使用 Url
- xml - 使用其 XSLT 属性的名称命名元素