python - Xpath - 具有包含文本值的表格的多个嵌套 div
问题描述
我在要从中提取文本信息的网站上遇到了复杂的 html 结构。
网站结构如下:
<ul class = "listing_pages">
<li id = "list_1" style = ""></li>
<li id = "list_2" style = ""></li>
<li id = "list_3" style = ""></li>
<li id = "list_4" style = ""></li>
<li id = "list_5" style = ""></li>
<li id = "list_6" style = ""></li>
<li id = "list_7" style = ""></li>
<li id = "list_8" style = ""></li>
<li id = "list_9" style = ""></li>
</ul>
每一个id="list_*"
展开成
<li id="list_1">
<div class="description_block">
<table valign="top">
<tbody>
<tr valign="top">
<td width="400px">
<table>
<tbody>
<tr>
<td style="width:350px">
<div></div>
<table></table>
<table cellspacing="0">
<tbody>
<tr>
<td height="15px">
<h2>
<a class="product_title" title="PRODUCT_NAME" href="http://example.com">PRODUCT_NAME</a>
其噩梦般的结构!而且它重复吃list_*
以下的相对 Xpath 是
/div[9]/div[2]/div[3]/div[2]/form/div/div[2]/ul/li[1]/div[2]/table/tbody/tr/td[1]/table/tbody/tr/td/table[2]/tbody/tr/td/h2/a
哪个失败了。
我尝试过的很少成功的事情是,
response.xpath('//*[@id="one"]//table//tr//h2//a[position()]//text()').extract()
这从页面中提取所有/h2/a
内容,而不是从单个list_*
response.xpath('//*[@id="list_1"]//table//tr//h2//a//text()').extract()
这会正确提取文本,但只能从第一个list_1
div 中提取。我可以用 增加它extract()[++i]
,但这不是最佳解决方案,我认为肯定有更好的方法来做到这一点。
我想要完成的是:
按顺序从每个 list_* 中提取文本 (PRODUCT_NAME)。
解决方案
也许尝试css
像这样的选择器:response.css('li[id*="list_"] a.product_title::text').extract()
?还是 xpath response.xpath('//li[contains(@id, "list_")]//a[contains(@class, "product_title")]/text()')
?
UPD:对于迭代:
for item in response.css('li[id*="list_"]'):
print item.css('a.product_title::text').get()
或者
for item in response.xpath('//li[contains(@id, "list_")]'):
print item.xpath('.//a[contains(@class, "product_title")]/text()').get()