json - 如何将整个 HTML 正文导出到嵌套 JSON
问题描述
我正在使用 Python3 和 Scrapy。
我有一个简单的蜘蛛(如下所示),我想将其保存为项目response.url
和response.text
. 我想将response.text
Notepad++ 保存为 JSON。有什么办法可以用嵌套结构保存吗?例如出现在本机 HTML og 页面中的那个?
class Spider1(scrapy.Spider):
name = "Spider1"
allowed_domains = []
start_urls = ['http://www.uam.es/']
def parse(self, response):
items = Spider1Item()
items['url'] = response.url
items['body'] = response.text
yield items
pass
编辑:这是我导出到 JSON 时想要的目标结构的片段。 目标结构的 HTML 片段
解决方案
推荐阅读
- python - 使用 Python 的 openvpn-api 时“超时”
- ios - 为什么模拟器在我停止运行之前不显示我的谷歌按钮
- unity3d - 要求玩家选择是否加载下一关
- wordpress - Docker Wordpress 插件持久化或映射到本地插件
- html - 当容器比屏幕宽时填充正确?
- java - Hadoop:Reduce 阶段开始:FileNotFoundException 输出/file.out.index 不存在
- python - 提高函数定义的可读性
- neo4j - 高效获取节点的所有关系类型
- java - 在休眠类别中创建产品 - Transcient 问题
- matlab - 从单元格中查找独特的月-年组合