首页 > 解决方案 > 如何根据输入将数据附加到现有的 Excel 文件?

问题描述

我目前正在编写一个 Scrapy Webcrawler,旨在从站点页面中提取数据并将这些数据附加到现有的 excel( ".tmp.xlsx" ) 文件中。该文件带有预填充的列标题,例如"name"、"country"、"state"、"zip code"、"address"、"phone number"。我最常抓取的网站不会有数据来填充所有列。有些可能只有“国家”、“州”、“邮政编码”和“电话号码”的数据。我需要帮助设置我的pipelines.py,以便我根据类型附加到文件中我从我正在爬行的网站获得的数据..

标签: pythonexcelpandasseleniumscrapy

解决方案


一种选择(可能不是您想要的)是将数据附加到 CSV(使用 Scrapy 的内置CsvItemExporter)。然后在close_spider方法中,将其转换为 excel 文件(例如,使用pandas)。


推荐阅读