python - 无法在python中将xml文件转换为csv
问题描述
为了使用 tensorflow 检测 API,我需要将我的 xml 文件转换为 csv 标签。我使用了这段代码,取自 datitran 的浣熊检测模型。他在他的github上,试一试。https://github.com/datitran/racoon_dataset
但是,当我使用他的 xml_to_csv 代码时,我可以编译它,但新的标签文件是空的。这是代码,
import os
import glob
import pandas as pd
import xml.etree.ElementTree as ET
def xml_to_csv(path):
xml_list = []
for xml_file in glob.glob(path + '/*.xml'):
tree = ET.parse(xml_file)
root = tree.getroot()
for member in root.findall('object'):
value = (root.find('filename').text,
int(root.find('size')[0].text),
int(root.find('size')[1].text),
member[0].text,
int(member[4][0].text),
int(member[4][1].text),
int(member[4][2].text),
int(member[4][3].text)
)
xml_list.append(value)
column_name = ['filename', 'width', 'height', 'class', 'xmin', 'ymin', 'xmax', 'ymax']
xml_df = pd.DataFrame(xml_list, columns=column_name)
return xml_df
def main():
for directory in ['train','test']:
image_path = os.path.join(os.getcwd(), 'images/{}'.format(directory))
xml_df = xml_to_csv(image_path)
xml_df.to_csv('data/{}_labels.csv'.format(directory), index=None)
print('Successfully converted xml to csv.')
main()
其中“train”和“test”是包含 xml 文件的文件夹,images 是包含它们的文件夹,data 是我希望保存标签文件的文件夹。
解决方案
我已经使用上面给出的链接下载了 github repo 并查看了代码。首先,我复制了上面的代码并粘贴到一个新文件中并运行它。
在上面发布的代码中,您获得空文件的原因是path
您为要调用的方法设置的 repo 中不存在,
如果我假设您想使用xml
文件夹中可用的annotations
文件来创建新csv
文件以分别包含测试和训练数据,那么您所要做的就是在目录中创建两个名为test
andtrain
的新目录并将文件从Images
复制到您创建的这些新目录,然后运行上面的代码,它就可以完美运行xml
annotations
我只是做了同样的事情,只复制了目录中的几个xml
文件annotations
,当我在它的时候,打印了数据框来显示
F:\expts\raccoon_dataset-master\raccoon_dataset-master>python import.py
filename width height class xmin ymin xmax ymax
0 raccoon-1.png 650 417 raccoon 81 88 522 408
1 raccoon-10.png 450 495 raccoon 130 2 446 488
2 raccoon-11.png 660 432 raccoon 3 1 461 431
3 raccoon-12.png 259 194 raccoon 28 21 126 181
4 raccoon-12.png 259 194 raccoon 85 33 235 193
5 raccoon-13.png 660 495 raccoon 55 28 393 313
6 raccoon-14.png 900 484 raccoon 163 81 546 438
7 raccoon-15.png 640 360 raccoon 313 61 614 360
8 raccoon-2.png 800 573 raccoon 60 51 462 499
9 raccoon-3.png 720 480 raccoon 1 1 720 476
10 raccoon-4.png 275 183 raccoon 21 11 200 183
11 raccoon-5.png 270 187 raccoon 3 3 260 179
12 raccoon-6.png 480 360 raccoon 1 44 307 316
13 raccoon-7.png 410 308 raccoon 92 79 271 264
14 raccoon-8.png 259 194 raccoon 16 11 236 175
15 raccoon-9.png 347 510 raccoon 10 7 347 471
Successfully converted xml to csv.
filename width height class xmin ymin xmax ymax
0 raccoon-16.png 424 640 raccoon 51 178 355 632
1 raccoon-17.png 259 194 raccoon 95 60 167 118
2 raccoon-18.png 240 156 raccoon 32 25 201 130
3 raccoon-19.png 259 194 raccoon 87 8 182 89
4 raccoon-20.png 720 540 raccoon 2 29 720 503
5 raccoon-21.png 290 174 raccoon 59 2 216 171
6 raccoon-22.png 640 360 raccoon 252 76 466 335
7 raccoon-23.png 259 194 raccoon 108 1 258 194
8 raccoon-24.png 268 188 raccoon 77 48 179 156
9 raccoon-24.png 268 188 raccoon 139 77 202 145
Successfully converted xml to csv.
希望这可以帮助
推荐阅读
- matplotlib - matplotlib pgf 后端与 lualatex - 非数学字体不会改变
- python - ValueError:形状(62,6)和(5,)未对齐:6(dim 1)!= 5(dim 0)
- docker - 使用 docker-compose.yml 进行 CA 部署
- c# - 如何检查 MySQL 数据库中是否已经存在 City?
- azure - 带有 Azure 负载均衡器的 terraform 上的 for_each
- python - Django oscar - 自定义 StockRecordForm 表单
- angular - 错误:src/app/app.module.ts:18:5 - 错误 NG6001:
- go - 如何在 golang 中使用标志运行函数?
- mongodb - 如何查看 mangoDB 的集合模式
- html - 如何在单击按钮时执行函数之前清除查询字符串参数?