首页 > 解决方案 > 有没有办法用熊猫读取 BeautifulSoup 输出来读取表格?

问题描述

我试过这种方式

data = web_soup.findAll("table", {"id": "product-review-table"})```
print(pd.read_html(data))

返回错误:TypeError:无法读取“ResultSet”类型的对象

数据包含一个完整的表格。我只想从 Url 读取特定表,通过将 url 传递给 pd.read_html() 它将获取所有表,但为了节省执行时间我只想读取特定表。我该怎么做?

标签: python-3.xpandasbeautifulsoup

解决方案


简短的回答

pd.read_html(str(data))

更长的答案

的输入read_html()可以是一个字符串。

从文档:

pandas.read_html(io, ..):
... 
io : str or file-like
    A URL, a file-like object, or a raw string containing HTML...

...

findAll(or )的输出find_all是一个ResultSet对象。

对象的字符串表示ResultSet可以使用str(ResultSetObject).

data = web_soup.findAll("table", {"id": "product-review-table"})
print(pd.read_html(str(data)))

推荐阅读