pandas - 如何处理无法从 pathlib 读取类型“WindowsPath”的熊猫?
问题描述
我正在尝试将 .html 文件读入 pd.read_html()。但是,每个 .html 文件都位于不同的目录中。所以我遍历了每个目录并将path/name
+html_file_name
放在一个名为html_paths
. 我想遍历这个列表并html_paths
使用 pd.read_html()读取每个 .html 文件
我试图像这样迭代 html_paths:
for I in range(len(html_paths)):
html_files = pd.read_html(html_paths[i])
我还尝试将我设置的原始 html_paths 全局化:
for I in path.glob('**/*.html'):
html_files = pd.read_html(i)
我尝试以任何方式迭代我的路径库列表,我都会收到类似的错误TypeError: Cannot read object type 'WindowsPAth'
到目前为止,我已经写过:
# initialize path
p = Path('C:\path\to\mother\directory')
# iterate over all directories within mother directory
# glob all html files
html_paths = [file for file in p.glob('**/*.html')
现在我想遍历每个文件html_paths
并将它们读入pd.read_html()
解决方案
您的html_paths
列表包含 Path 对象,而不是read_html
预期的字符串。尝试将其转换为字符串:
for I in range(len(html_paths)):
html_files = pd.read_html(str(html_paths[I]))
推荐阅读
- java - 派生类的spring bean验证很慢
- amazon-web-services - 如何在 EC2 实例上运行 tensorflow 程序,同时保持免费套餐
- javascript - 为 .includes 添加了 poly-fill,但在一个区域仍然出现错误,尽管在所有其他区域都已解决
- git - 通过 VPN 使用时 Git 命令停止
- php - 使用 .htacess 不允许直接 url 访问文件
- python-3.x - 使用 BigQuery / Python3 / Reddit “项目名称需要用点分隔”错误
- mongodb - 从 Spark 写入 Mongo 副本集(在 Scala 中)
- windbg - 如何通过 CLRMD 获取 WinDBG 中显示的异常
- javascript - 缓慢的视频逐渐停止
- node.js - 如何让我的 nodejs 套接字应用程序从 azure VM 外部可见