python - Scrapy,从H3标签中获取href?
问题描述
目前正试图从下面的 HTML 中抓取链接和标题,尽管阅读了一段时间的scrapy 文档,但似乎找不到任何方法。
<h3 class="data">
<a href="example.com" title="uniqueTitle"></a>
</h3>
这样做的最佳方法是什么?另外我应该注意,<h3>
页面上有许多这些元素具有相同的类,但<a>
我想抓取不同的标签。
提前致谢!
解决方案
要获取h3
标签中的所有 url,您可以使用例如
from scrapy import Selector
sel = Selector(text='''<h3 class="data">
<a href="example.com" title="uniqueTitle"></a>
</h3>''')
print(sel.css('h3.data > a::attr(href)').extract()) # you can use this
输出:
['example.com']
推荐阅读
- css - 我应该如何让我的项目对 CSS 做出响应?
- python - 使用 pyinstaller 将腌制的 sklearn 模型编译为 EXE 文件,无需导入 Sklearn 模块
- python - 如何使用当前设置获得 JSON 文件?
- python - Python 无法访问列表
- android - 如果我的应用程序在后台,为什么 Android 操作系统不会创建 singleTop 活动的新实例?
- aws-elasticsearch - 两个 AWS ES 集群/域之间的 Amazon Elasticsearch 索引复制?
- javascript - 如何将数据从一个 api 端点传递到 reactjs 中的另一个 api 端点
- python - 如何使用 Pandas 数据框显示如下输出?
- python - 无法使用实现代理的请求从有问题的网页中获取标题
- ruby-on-rails - timecop.travel 测试返回 false 而不是 true - rails