python - Pandas read_csv() 不读取包含网络链接的列或之后的任何列
问题描述
我正在尝试从通过网络抓取创建的 CSV 中删除重复项,并使用以下内容创建 CSV:
Greensboro_Parks = pd.DataFrame({"Mobile Home Park":pd.Series(company_names),"Phone Number":pd.Series(company_phone),"Website":pd.Series(website_link_list),"Street":pd.Series(company_street),"City/State":pd.Series(company_locale)})
Greensboro_Parks.to_csv('Greensboro_Mobile_Homes.csv', index = False, header = True)
Github 上的 CSV 链接(屏幕截图文件太大): https ://github.com/sdejewski10/Upwork_Mobile_Homes/blob/master/Greensboro_Mobile_Homes.csv
当我打开一个新文件并读取 CSV 文件时,它只显示前两列:“Mobile Home Park”和“Phone Number”。我尝试在 Google 表格中打开 CSV 文件,它也只显示前两列。我得出的结论可能与试图读入 CSV 的网络链接的格式有关?
我尝试使用:
data = pd.read_csv('/Users/steve/Documents/Coding/Upwork/Mobile Homes/Greensboro_Mobile_Homes.csv', usecols = ['Mobile Home Park', 'Phone Number', 'Website', 'Street', 'City/State'], dtype= str)
输出:
ValueError: Usecols do not match columns, columns expected but not found: ['Website', 'Street', 'City/State']
我已查看:https ://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html但无法解释如何格式化要读取的 URL。非常感谢任何建议。
解决方案
您使用 read_csv导出了您的 csv 文件,header=True
因此您无需指定。usecols
一般来说,如果在 csv 文件中提供了列名,您可以使用header
参数来给出列名对应的行号。
推荐阅读
- c# - 使用 ServiceProxy.Create 连接到特定服务实例
- matlab - 在 Matlab 中并行运行 3 个 for 循环
- python-2.7 - 除了 .bin 之外,gensim 创建扩展名为 .bin.trainables.syn1neg.npy 和 .bin.wv.vectors.npy 的文件
- php - 在 PHP 中使用 file_get_contents 和 file_put_contents 的问题
- laravel - 如何检查我从与其他多个表相关的表中使用的 id?
- python - 将多个张量成对相乘 keras
- jquery - bootstrap4C 有延时改函数没功能?
- c# - C# 禁用 USB ReadPipe 的垃圾收集
- python - 获取图像的轮廓和点
- google-analytics - 生成以周为单位的内容深入分析报告