python - 如何从熊猫数据框中的网页中读取所有 csv 文件?
问题描述
我正在尝试将所有 .csv 文件从https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports读取到数据框。
到目前为止我的代码:
url = 'https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports'
x = requests.get(url).text
filenames = re.findall('[\d]{1,2}-[\d]{1,2}-[\d]{4}.csv', x)
frame = pd.concat(pd.read_csv(url + y) for y in filenames)
也许有人可以帮忙:D
解决方案
将网址更改为
url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/'
它应该可以工作。这使您可以访问原始 csv 文件,而不是 csv 所在的页面。
编辑:刚刚注意到你需要你的旧网址来获取文件名:
url_raw = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_daily_reports/'
url = 'https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_daily_reports'
x = requests.get(url).text
filenames = re.findall('[\d]{1,2}-[\d]{1,2}-[\d]{4}.csv', x)
frame = pd.concat(pd.read_csv(url_raw + y) for y in filenames)
推荐阅读
- c++ - 将值分配给向量(2D)的向量中的某个位置
- r - 如何将数据框中的值匹配到另一个
- python - 如何确定 Scrapy 项目加载器实现中的错误?
- javascript - 如何在 Chrome 扩展内容脚本中调用一个又一个函数
- ios - Swift - 如何仅在 UIButton 底部阴影上应用投影,而不是在其图像和标题标签上应用投影?
- vb.net - 'Microsoft.VisualBasic.dll 中的 System.InvalidCastException'
- jinja2 - 有什么方法可以让 jinja2 更具可读性吗?
- python - 过滤数据框值
- hive - 在 Hive 中更新表时出现异常
- python - What does single(not double) asterisk * means when unpacking dictionary in Python?