python - 抓取 EDGAR HTML 文件并希望转换为数据框
问题描述
我是抓取网站的新手
url = 'https://www.sec.gov/Archives/edgar/data/1383094/000095013120003579/d33910dex991.htm'
df = pd.read_html(url, parse_dates=[0])[0]
print (df.head())
这是我的代码,我想从该网站提取所有数据,但结果始终是第一个“正文”
0 1 2 3 4
0 NaN NaN NaN NaN NaN
1 Collection Period Beginning: NaN NaN 08/01/2020 NaN
2 Collection Period Ending: NaN NaN 08/31/2020 NaN
3 Previous Payment/Close Date: NaN NaN 08/17/2020 NaN
4 Payment Date NaN NaN 09/15/2020 NaN
我怎样才能得到剩下的?
解决方案
pd.read_html
返回所有表的列表。您只是在阅读初始表,因此它为您提供了一个 df。
尝试 :
df = pd.read_html(url, parse_dates=[0])
df1 = df[0]
df2 = df[1]
..等等以读取索引处的所有df。df 保存列表,您可以访问每个索引处的列表元素。
推荐阅读
- javascript - 如何在 Node.js 中使用 arguments 关键字?
- mysql - SQL,查找两个给定名称在一列中是否具有相同数字的查询
- php - 如何不重复基于 JOIN 查询的表列?
- c# - C# 对象建模 1:n:m...
- vb.net - 我怎样才能使这项工作?单击按钮时,我无法添加文本框值,然后在 textbox3 上显示
- node.js - 如果语句不能正常工作 discord.js
- html - 如何在运行时传递可由 html 代码选择的参数
- java - Thymeleaf 和 SpringBoot 的 NoSuchMessageException
- swift - 楼梯问题 Swift 打印“#” n 和 n-1 次
- catboost - 在 catboostclassifier 中使用 class_weights