python - 在 Python 中解析 GATE 文档的 TextWithNodes 元素
问题描述
在 NLP 项目中,我需要处理 GATE XML 文档的 TextWithNodes 元素中的文本和注释。此元素具有以下外观:
<TextWithNodes>
Some kind of sample <Node id="123" /> text
in which <Node id="234" /> various Node
elements appear.
</TextWithNodes>
然后,节点元素通过 ID 属性与稍后在同一文件中的注释相关联。这显然是标准的 GATE 语法。但是,使用 Python 中的 xml.etree.ElementTree 模块,我似乎无法捕获 TextWithNodes 元素的全部内容。如果我输入这个——
>>> tree = ET.parse('my_file.xml')
>>> twn = tree.find('TextWithNodes')
>>> twn.text
Some kind of sample
也就是说,我只得到第一个 Node 元素之前的第一个文本片段。如何获取整个文本块,其中嵌入了 Node 元素?或者有没有更好的方法来解决这个问题?最终,我希望将整个文本内容变成一个句子列表,其中的每个元素都有句子的文本与从节点 ID 到相应注释的文本内容的字典配对——类似这样。谢谢。
解决方案
推荐阅读
- r - 在 Shiny 中隔离反应性 data.frames 列表
- node.js - 拆分具有多个值的字段的值
- java - getRemoteSocketAddress 一起返回 url 和 ip 地址
- batch-file - 使用 Windows 帐户列表使用 SIDS 添加 reg 密钥
- javascript - 如何通过更改参数动态添加函数到 onclick 事件?
- python - 如何让这个运行“更快”?或者这是正确的术语?
- php - 未定义的索引:带有 $GLOBAL 变量的类型
- c# - 从 SQL 查询返回属性到类列表的问题
- audio - 为循环 wav 样本添加抗锯齿/带宽限制(非傅立叶变换)
- python-3.x - Python/Django 使用某种缓存在一段时间内记录错误