首页 > 解决方案 > 如何从熊猫数据框中的网页中读取所有 csv 文件?

问题描述

我正在尝试将所有 .csv 文件从https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports读取到数据框。

到目前为止我的代码:

url = 'https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports'
x = requests.get(url).text
filenames = re.findall('[\d]{1,2}-[\d]{1,2}-[\d]{4}.csv', x)
frame = pd.concat(pd.read_csv(url + y) for y in filenames) 

也许有人可以帮忙:D

标签: pythonpandasre

解决方案


将网址更改为

url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/'

它应该可以工作。这使您可以访问原始 csv 文件,而不是 csv 所在的页面。

编辑:刚刚注意到你需要你的旧网址来获取文件名:

url_raw = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/'
url = 'https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports'
x = requests.get(url).text
filenames = re.findall('[\d]{1,2}-[\d]{1,2}-[\d]{4}.csv', x)
frame = pd.concat(pd.read_csv(url_raw + y) for y in filenames)

推荐阅读