首页 > 解决方案 > 抓取 EDGAR HTML 文件并希望转换为数据框

问题描述

我是抓取网站的新手

url = 'https://www.sec.gov/Archives/edgar/data/1383094/000095013120003579/d33910dex991.htm'

df = pd.read_html(url, parse_dates=[0])[0]
print (df.head())

这是我的代码,我想从该网站提取所有数据,但结果始终是第一个“正文”

0   1   2           3   4
0                           NaN NaN NaN         NaN NaN
1  Collection Period Beginning: NaN NaN  08/01/2020 NaN
2     Collection Period Ending: NaN NaN  08/31/2020 NaN
3  Previous Payment/Close Date: NaN NaN  08/17/2020 NaN
4                  Payment Date NaN NaN  09/15/2020 NaN

我怎样才能得到剩下的?

标签: pythonhtmlweb-scraping

解决方案


pd.read_html返回所有表的列表。您只是在阅读初始表,因此它为您提供了一个 df。

尝试 :

df = pd.read_html(url, parse_dates=[0])
df1 = df[0]
df2 = df[1]

..等等以读取索引处的所有df。df 保存列表,您可以访问每个索引处的列表元素。


推荐阅读