首页 > 解决方案 > 从文件中提取 XML-TEI 属性

问题描述

早上好,我正在编写代码以从一首诗的 XML-TEI 标记文件中提取数据,我想打印这首诗每一行的“pos”属性列表('l ')。(“w”是“l”标签中包含的单词标签的名称)

<l n="1"> <w pos="PREP" msd="--" lemma="de">De</w> <w pos="REL" msd="--" lemma="qui">qua</w> <w pos="ADV" msd="--" lemma="saepe">saepe</w> <w pos="PRON" msd="--" lemma="tu">tibi</w> <w pos="PUN" msd="--" lemma=",">,</w> </l> <l n="2"> <w pos="ADV" msd="--" lemma="non">non</w> <w pos="V" msd="IND" lemma="licet_est">licet</w> </l> <l n="3"> <w pos="PREP" msd="--" lemma="de">de</w> <w pos="REL" msd="--" lemma="qui">qua</w> <w pos="ADV" msd="--" lemma="saepe">saepe</w> </l>
result_4=bs_content.find_all('l')
for x in result_4:
  print(len(x.find_all('w')))
  for x in x.find_all('w'):
    a=x.get('pos')
    print(a)

目前的结果如下:

5

准备

相对

进阶

普朗

双关语

2

进阶

3

准备

相对

进阶

但我想拥有

5

['准备','REL','ADV','PRON','双关语']

2

['ADV','V']

3

['准备','REL','ADV']

有人可以帮助我吗?谢谢

标签: pythonxmltei

解决方案


推荐阅读