首页 > 解决方案 > 如何在本网站的 //div[@class='body'] 中抓取所有文本?

问题描述

import scrapy


class ActScraper1Spider(scrapy.Spider):
    name = 'act_scraper_1'
    allowed_domains = ['sso.agc.gov.sg']
    start_urls = ['https://sso.agc.gov.sg/Act/AA2004']

def parse(self, response):

    info = response.xpath("//div[@class='body']//text()").getall()
    yield {
        'info': info
    }

所以我上面的代码完成了部分工作,因为它只从 div[@class='body'] 标记的 8 个表中抓取了第一个表

在此处输入图像描述

如何让我的刮刀刮掉所有表格中的所有文本?谢谢!

标签: python-3.xscrapy

解决方案


在浏览器中禁用 Javascript 并重新加载页面。然后您会看到有效的最新 xpath(您可以在 chrome 浏览器上使用“Quick Javascipt Switcher”来禁用 js)


推荐阅读