首页 > 解决方案 > Scrapy:检查标签内是否有另一个标签并刮掉这两个元素

问题描述

我正在尝试抓取使用此结构的 html 页面:

<div class="article-body">
    <div id="firstBodyDiv">
        <p class="ng-scope">
            This is a dummy text for explanation purposes
        </p>
        <p> class="ng-scope">
          This is a <a>dummy</a> text for explanation purposes
        </p>
    </div>
</div>

正如你所看到的,一些 P 元素有一个元素,而一些没有。到目前为止我所做的如下:

economics["article_content"] = response.css("div.article-body div#firstBodyDiv > p:nth-child(n+1)::text").extract()

a但如果a元素内有p元素,则仅返回元素前后的文本

虽然此查询返回a(s)元素:

response.css("div.article-body div#firstBodyDiv p:nth-child(n+1) a::text").extract()

我想找到一种方法来检查是否有一个a元素,这样我就可以执行另一个查询(那个在a元素内抓取文本的人)

这就是我到目前为止所做的:

for i in response.css("div.article-body div#firstBodyDiv p:nth-child(n+1)"):
    if response.css("div.article-body div#firstBodyDiv p:nth-child(n+1) a") in i : 
        # ofcourse this isnt working since and i am getting this error 
        # 'in <string>' requires string as left operand, not SelectorList
        # probably i will have a different list1, list1.append() the p 
        # before, a, and the p text after the a element
        # assign that list to economics["article_content"]

虽然我使用的是 css 选择器,但欢迎您使用 xpath 选择器。

标签: web-scrapingscrapy

解决方案


您可以使用descendant-or-selfxpath 中的功能,它将获取所有内部文本。

for i in response.css('div.article-body div#firstBodyDiv > p:nth-child(n+1)'):
 print(''.join(i.xpath('descendant-or-self::text()').extract())) 

您还可以使用scrapy shell原始 HTML 来测试您的代码,如下所示:

$ scrapy shell
from scrapy.http import HtmlResponse
response = HtmlResponse(url='test', body='''<div class="article-body"> 
   <div id="firstBodyDiv"> 
       <p class="ng-scope"> 
           This is a dummy text for explanation purposes 
       </p> 
       <p class="ng-scope"> 
         This is a <a>dummy</a> text for explanation purposes 
       </p> 
   </div> 
</div> 
''', encoding='utf-8')
for i in response.css('div.article-body div#firstBodyDiv > p:nth-child(n+1)'):
     print(''.join(i.xpath('descendant-or-self::text()').extract())) 

推荐阅读