首页 > 解决方案 > 如何将整个 HTML 正文导出到嵌套 JSON

问题描述

我正在使用 Python3 和 Scrapy。

我有一个简单的蜘蛛(如下所示),我想将其保存为项目response.urlresponse.text. 我想将response.textNotepad++ 保存为 JSON。有什么办法可以用嵌套结构保存吗?例如出现在本机 HTML og 页面中的那个?

class Spider1(scrapy.Spider):
    name = "Spider1"
    allowed_domains = []
    start_urls = ['http://www.uam.es/']    

    def parse(self, response):
        items = Spider1Item()
        items['url'] = response.url
        items['body'] = response.text
        yield items

        pass

编辑:这是我导出到 JSON 时想要的目标结构的片段。 目标结构的 HTML 片段

标签: jsonpython-3.x

解决方案


推荐阅读