python - 如何根据输入将数据附加到现有的 Excel 文件?
问题描述
我目前正在编写一个 Scrapy Webcrawler,旨在从站点页面中提取数据并将这些数据附加到现有的 excel( ".tmp.xlsx" ) 文件中。该文件带有预填充的列标题,例如"name"、"country"、"state"、"zip code"、"address"、"phone number"。我最常抓取的网站不会有数据来填充所有列。有些可能只有“国家”、“州”、“邮政编码”和“电话号码”的数据。我需要帮助设置我的pipelines.py,以便我根据类型附加到文件中我从我正在爬行的网站获得的数据..
解决方案
一种选择(可能不是您想要的)是将数据附加到 CSV(使用 Scrapy 的内置CsvItemExporter
)。然后在close_spider
方法中,将其转换为 excel 文件(例如,使用pandas
)。
推荐阅读
- java - 为班级绘制自定义?
- c# - 如何使用 db first 方法在实体框架中编写多对多查询?
- c# - 使用 xamarin.android 编译 .json 文件
- c++ - 字符串的scanf函数
- javascript - V8:实现相等测试
- python - 多线程将 csvreader 行插入由 psycopg2 连接的 postgres
- python - Docker python-alpine 3.9 缺少 ibtbb
- mysql - 为 asp.net core mvc 应用程序的 macos 更新 vb 2019 社区中的包时出错
- c++ - 函数返回时中断循环
- java - 杰克逊循环依赖只是通过深度而不是通过深度和广度