ruby - XML 解析破碎的文本
问题描述
我正在寻找解析 word 文档 XML 以获取每个段落、句子或短语的页脚信息。
此命令获取所有文本之间没有空格。
pry(main)> doc.header_and_footers_xml[1].text()
=> " PAGE 1FirstGoogle.comSomething privacy Saturday, February 23, 2019"
这个命令稍微好一点,但会以奇怪的方式分解文本:
pry(main)> doc.header_and_footers_xml[1].search('//text()')
=> [#<Nokogiri::XML::Text:0x3fdf0eb0c3a4 " PAGE ">, #<Nokogiri::XML::Text:0x3fdf10c41b78 "1">, #<Nokogiri::XML::Text:0x3fdf0eaa427c "F">, #<Nokogiri::XML::Text:0x3fdf0ea60bbc "irst">, #<Nokogiri::XML::Text:0x3fdf0e9f9bc4 "Google.com">, #<Nokogiri::XML::Text:0x3fdf0f6b636c "Something privacy">, #<Nokogiri::XML::Text:0x3fdf0b9ded90 " Saturday, February 23, 2019">]
pry(main)> doc.header_and_footers_xml[1].search('//text()')[2]
=> #(Text "F")
pry(main)> doc.header_and_footers_xml[1].search('//text()')[3]
=> #(Text "irst")
我想通过包含以下元素的列表/数组接收迭代:'PAGE'、'1'、'First'、'Google.com'、'Something privacy'、'Saturday, February 23, 2019'
下面是整个 XML。是否可以只迭代name = "p"
元素?
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<w:hdr xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main">
<w:sdt>
<w:sdtPr>
<w:rPr>
<w:rStyle w:val="PageNumber" />
</w:rPr>
<w:id w:val="-157074914" />
<w:docPartObj>
<w:docPartGallery w:val="Page Numbers (Top of Page)" />
<w:docPartUnique />
</w:docPartObj>
</w:sdtPr>
<w:sdtEndPr>
<w:rPr>
<w:rStyle w:val="PageNumber" />
</w:rPr>
</w:sdtEndPr>
<w:sdtContent>
<w:p w:rsidR="00140C14" w:rsidRDefault="00140C14" w:rsidP="00AD16D8">
<w:pPr>
<w:pStyle w:val="Header" />
<w:framePr w:wrap="none" w:vAnchor="text" w:hAnchor="margin" w:xAlign="right" w:y="1" />
<w:rPr>
<w:rStyle w:val="PageNumber" />
</w:rPr>
</w:pPr>
<w:r>
<w:rPr>
<w:rStyle w:val="PageNumber" />
</w:rPr>
<w:fldChar w:fldCharType="begin" />
</w:r>
<w:r>
<w:rPr>
<w:rStyle w:val="PageNumber" />
</w:rPr>
<w:instrText xml:space="preserve"> PAGE </w:instrText>
</w:r>
<w:r>
<w:rPr>
<w:rStyle w:val="PageNumber" />
</w:rPr>
<w:fldChar w:fldCharType="separate" />
</w:r>
<w:r>
<w:rPr>
<w:rStyle w:val="PageNumber" />
<w:noProof />
</w:rPr>
<w:t>1</w:t>
</w:r>
<w:r>
<w:rPr>
<w:rStyle w:val="PageNumber" />
</w:rPr>
<w:fldChar w:fldCharType="end" />
</w:r>
</w:p>
</w:sdtContent>
</w:sdt>
<w:p w:rsidR="002132D5" w:rsidRDefault="00140C14" w:rsidP="00140C14">
<w:pPr>
<w:pStyle w:val="Header" />
<w:ind w:right="360" />
</w:pPr>
<w:r>
<w:t>F</w:t>
</w:r>
<w:r w:rsidR="002132D5">
<w:t>irst</w:t>
</w:r>
</w:p>
<w:p w:rsidR="00140C14" w:rsidRDefault="00140C14" w:rsidP="00140C14">
<w:pPr>
<w:pStyle w:val="Header" />
<w:ind w:right="360" />
</w:pPr>
<w:r>
<w:t>Google.com</w:t>
</w:r>
</w:p>
<w:p w:rsidR="00140C14" w:rsidRDefault="00140C14" w:rsidP="00140C14">
<w:pPr>
<w:pStyle w:val="Header" />
<w:ind w:right="360" />
</w:pPr>
<w:r>
<w:t>Something privacy</w:t>
</w:r>
<w:r w:rsidR="00710468">
<w:t xml:space="preserve"> Saturday, February 23, 2019</w:t>
</w:r>
<w:bookmarkStart w:id="0" w:name="_GoBack" />
<w:bookmarkEnd w:id="0" />
</w:p>
</w:hdr>
这是word文档:
解决方案
原理是这样的:
- 定义命名空间 URI,以便我们可以使用 XPath 正确搜索
<w:p>
元素。在这种情况下,只有w:
名称空间是相关的。 - 迭代
<w:p>
节点 - 加入每个节点中的非空文本节点
这可能是非常不习惯的 Ruby,但它应该让你开始:
require 'nokogiri'
header_and_footers_xml = Nokogiri::XML(open("footer.xml"))
namespaces = {
"w" => "http://schemas.openxmlformats.org/wordprocessingml/2006/main"
}
paras = header_and_footers_xml.search('//w:p', namespaces)
paras.each do |p|
nodes = p.xpath('.//text()[normalize-space()]')
texts = nodes.map { |n| n.text }
puts(texts.join)
end
这打印(在 Ruby 2.5 上测试):
第 1 页 第一的 谷歌网站 一些隐私 2019 年 2 月 23 日星期六
XPath 表达式收集.//text()[normalize-space()]
当前text()
节点( ..
normalize-space()
推荐阅读
- java - JMockit - 意外调用
- libgdx - Libgdx texturepacker 不会打包所有图像
- c# - NHibernate 中多列的 IN 子句映射
- java - 验证电子邮件后如何开始新活动(firebase)
- android-studio - 如何在整个项目中全局更改 xml 元素的名称
- php - 调用未定义的方法 Laravel\Socialite\Two\User::createToken()
- c++ - OpenMP 奇怪行为 - 性能差异
- python - 未找到。单元魔法`%%time
- django - 一对多 django 添加作者到书
- php - 如何在今天从 00:00:00 到 23:59:59 在 Laravel 中输入