首页 > 解决方案 > Scrapy,从H3标签中获取href?

问题描述

目前正试图从下面的 HTML 中抓取链接和标题,尽管阅读了一段时间的scrapy 文档,但似乎找不到任何方法。

<h3 class="data"> 
  <a href="example.com" title="uniqueTitle"></a>
</h3>

这样做的最佳方法是什么?另外我应该注意,<h3>页面上有许多这些元素具有相同的类,但<a>我想抓取不同的标签。
提前致谢!

标签: pythonscrapyscrapy-shell

解决方案


要获取h3标签中的所有 url,您可以使用例如

from scrapy import Selector
sel = Selector(text='''<h3 class="data"> 
  <a href="example.com" title="uniqueTitle"></a>
</h3>''')
print(sel.css('h3.data > a::attr(href)').extract()) # you can use this

输出:

['example.com']

推荐阅读