python - Scrapy 跟踪特定 div 中的链接
问题描述
我试图关注相关链接,但没有任何成功。我的scrapy 脚本(scrapy 的全新)得到“抓取 0 页”。
我正在尝试抓取一系列看起来有这样一个部分的页面:
<div id="index">
<h2>Find Listings </h2>
<div class="group">
<h3>A</h3>
<ul>
<li><a href="/STATE-City/Segment-number-one">Segment-number-one</a></li>
<li><a href="/STATE-City/Segment-number-two">Segment-number-two</a></li>
<li><a href="/STATE-City/Segment-number-three">Segment-number-three</a></li>
等等...
跟随链接时,下一级有我想要解析出一些数据的数据。当我直接解析页面时,它会提取我想要的数据。但是,我没有让脚本遵循上面的每个链接。
我当前的脚本:
class MySpider(CrawlSpider):
name = "domain"
allowed_domains = ["domain.com"]
start_urls = ['http://URL/STATE-City1',
'http://URL/STATE-City2']
rules = (Rule(LinkExtractor(allow=r"/STATE-\w+/*?$"), callback='parse_contents'),)
def parse_contents(self, response):
for bus in response.css('div.resultWrapper'):
yield {
'field1': bus.css('div.resultInner a::text').extract_first(),
'field2': bus.css('p.field2::text').extract_first(),
'field3': bus.css('span.field3::text').extract_first(),
'field4': bus.css('span.field4::text').extract(),
'field5' : bus.css('span.field5::text').extract(),
}
谢谢你的帮助。
BCBB
解决方案
推荐阅读
- javascript - 如何在 JavaScript 中的动态样式中避免过渡
- python - 错误:未能将一些参考资料推送到“https://github.com/E-wave112/myadmissionportalsite2.git”
- java - Minecraft 1.15 Forge Bullet mod 未渲染
- typescript - 将来自其他对象的参数作为已定义类型打字稿中的参数传递。对象字面量只能指定已知属性,ts(2345)
- swift - 如何访问和修改核心数据
- html - 单击“显示更多”按钮后如何对行应用和删除褪色渐变
- swift - 如何在 SwiftUI 视图中进行导航控制
- python - 汇总 df 中的行
- javascript - 如何在单击操作按钮时将选定复选框的值作为连接字符串发送到文本输入中
- c# - C# Slack Bot 到 Slack Channel - 使用 Slash 命令而不是聊天