首页 > 解决方案 > Pandas read_csv() 不读取包含网络链接的列或之后的任何列

问题描述

我正在尝试从通过网络抓取创建的 CSV 中删除重复项,并使用以下内容创建 CSV:

Greensboro_Parks = pd.DataFrame({"Mobile Home Park":pd.Series(company_names),"Phone Number":pd.Series(company_phone),"Website":pd.Series(website_link_list),"Street":pd.Series(company_street),"City/State":pd.Series(company_locale)})

Greensboro_Parks.to_csv('Greensboro_Mobile_Homes.csv', index = False, header = True)

Github 上的 CSV 链接(屏幕截图文件太大): https ://github.com/sdejewski10/Upwork_Mobile_Homes/blob/master/Greensboro_Mobile_Homes.csv

当我打开一个新文件并读取 CSV 文件时,它只显示前两列:“Mobile Home Park”和“Phone Number”。我尝试在 Google 表格中打开 CSV 文件,它也只显示前两列。我得出的结论可能与试图读入 CSV 的网络链接的格式有关?

我尝试使用:

data = pd.read_csv('/Users/steve/Documents/Coding/Upwork/Mobile Homes/Greensboro_Mobile_Homes.csv', usecols = ['Mobile Home Park', 'Phone Number', 'Website', 'Street', 'City/State'], dtype= str)

输出: ValueError: Usecols do not match columns, columns expected but not found: ['Website', 'Street', 'City/State']

我已查看:https ://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html但无法解释如何格式化要读取的 URL。非常感谢任何建议。

标签: pythonpandascsvgoogle-sheets

解决方案


您使用 read_csv导出了您的 csv 文件,header=True因此您无需指定。usecols一般来说,如果在 csv 文件中提供了列名,您可以使用header参数来给出列名对应的行号。


推荐阅读