首页 > 解决方案 > Scrapy:将 HTML 提取为元素内的字符串

问题描述

我想在dic. 例如在这段 HTML 中:

<div id="main"><h1><xyz>Title<xyz></h1></div>

我想提取 div 内容:<h1><xyz>Title<xyz></h1>作为字符串。使用 CSS o Xpath scrapy 选择器可以做到这一点吗?

谢谢 :)

标签: xpathscrapycss-selectorslxml

解决方案


对于 XPath,使用专用函数 string() :

string(//div[@id='main']/h1/xyz)

输出:“标题”

编辑:如果您正在寻找“标题”,则输出整个路径:

concat(concat("<",name(//*[.="Title"]/parent::*),">"),concat("<",name(//*[.="Title"]),">"),string(//*[.="Title"]),concat("</",name(//*[.="Title"]),">"),concat("</",name(//*[.="Title"]/parent::*),">"))

输出 :<H1><XYZ>Title</XYZ></H1>


推荐阅读