首页 > 解决方案 > 我如何使用 Jsoup 抓取数据

问题描述

我正在创建一个应用程序,并在其上通过网络抓取此站点https://www.bbc.co.uk/search?q=handsworth我想知道如何将图像、标题和描述从网络上抓取为代码下面我可以得到页面的标题。

StringBuilder newsContent = new StringBuilder();
                try {
                    Document page = Jsoup.connect("https://www.bbc.co.uk/search?q=handsworth").get();
                    String title = page.title();

                    newsContent.append(title).append("\n");
                } catch (IOException e) {
                    newsContent.append("Error: ").append(e.getMessage()).append("\n");
                }

标签: javaweb-scraping

解决方案


你不能。https://www.bbc.co.uk/search?q=handsworth中的DOM是由 javascript 动态生成的。Jsoup 不执行 javascript。

你可以做的是使用真正的浏览器进行抓取,例如使用 Selenium


推荐阅读