python - 循环并加载 yaml 文件的压缩文件夹
问题描述
我有一个包含 15 000 个 yaml 文件的压缩文件夹。我想使用 yaml.safe_load 遍历文件夹,以便每个文件都采用字典格式,并且我可以从我需要的每个文件中提取信息。到目前为止,我已经使用 zipfile.ZipFile 和 yaml.safe_load 编写了一些代码,但它仅适用于压缩文件夹中的第一个文件。请有人介意看看并解释我的误解吗?
zip_file = zipfile.ZipFile("D:/export.zip")
files = zip_file.namelist()
print(files)
for i in range(10):
with zip_file.open(files[i]) as yamlfile:
yamlreader = yaml.safe_load(yamlfile)
print(yamlreader["identifier"])
现在我只是遍历 10 个文件以使生活更轻松。最终我想做整个 15 000。“标识符”是 yaml 文件中的一个键。
这是错误:
10.5281/zenodo.1014773
Traceback (most recent call last):
File "C:/Users/estho/PycharmProjects/GSOC3/testing_dataextraction.py", line 20, in <module>
yamlreader = yaml.safe_load(yamlfile)
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\__init__.py", line 162, in safe_load
return load(stream, SafeLoader)
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\__init__.py", line 114, in load
return loader.get_single_data()
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\constructor.py", line 41, in get_single_data
node = self.get_single_node()
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\composer.py", line 36, in get_single_node
document = self.compose_document()
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\composer.py", line 55, in compose_document
node = self.compose_node(None, None)
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\composer.py", line 84, in compose_node
node = self.compose_mapping_node(anchor)
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\composer.py", line 127, in compose_mapping_node
while not self.check_event(MappingEndEvent):
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\parser.py", line 98, in check_event
self.current_event = self.state()
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\parser.py", line 428, in parse_block_mapping_key
if self.check_token(KeyToken):
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\scanner.py", line 116, in check_token
self.fetch_more_tokens()
File "C:\Users\estho\PycharmProjects\GSOC3\lib\site-packages\yaml\scanner.py", line 260, in fetch_more_tokens
self.get_mark())
yaml.scanner.ScannerError: while scanning for the next token
found character '\t' that cannot start any token
in "yamlfile_10_5281_zenodo_1745362.yaml", line 4, column 1
谢谢你。
解决方案
在我看来,文件"yamlfile_10_5281_zenodo_1745362.yaml"
中有一个错误的令牌名称。尝试在没有此文件的情况下运行它。在 python\t
中代表一个选项卡,因此不能在不转义的情况下正常包含在字符串等中。
推荐阅读
- php - 尝试使用 Laravel 迁移添加外键约束时出错
- arrays - Ajax JSON 请求对象包含数组,但该数组在服务器端未定义。字符串发送良好
- android - 如何限制对实时数据库中特定节点下声明的用户的写访问
- git - Git tag 也标记所有以前的提交
- string - 删除调查中包含特殊字符的重复答案
- context-free-grammar - 来自语言的上下文无关语法
- php - 获取给定路线的所有 GPS 位置点 (PHP)
- javascript - 如何对动态添加的元素执行动态操作?
- javascript - Node JS Express 服务器 - 跨域请求被阻止,即使有所有正确的标头
- reactjs - 获取存储数据并调度外部组件反应原生