python - 爬行蜘蛛并安排它们
问题描述
我创建了一个抓取新闻的蜘蛛。我也想运行那个蜘蛛并安排它。它在一个 django 项目中。这样,蜘蛛就会抓取数据并将其放入数据库中,django 将使用该数据库来显示相同的数据。这是我的蜘蛛
`class NewsSpider(CrawlSpider): name = "news"
start_urls = ['https://zeenews.india.com/latest-news']
def start_requests(self):
urls = ['https://zeenews.india.com/latest-news']
for url in urls:
yield scrapy.Request(url=url, callback=self.parse)
def parse(self, response):
item = NewsScraperItem()
data = response.css('div.sec-con-box')
item['headlines'] = data.css('h3::text').extract_first()
item['content'] = data.css('p::text').extract_first()
return item`
items.py:`从scrapy_djangoitem 导入scrapy 从news.models 导入DjangoItem 导入LatestNews
class NewsScraperItem(DjangoItem): # 在这里为您的项目定义字段,例如:# name = scrapy.Field() django_model = LatestNews`
解决方案
要启用调度并确保爬虫在后台工作,我建议您使用Django Background Tasks repo。
在此处查看文档。
推荐阅读
- javascript - 单击播放()时不必要地下载多个音频文件
- node.js - 无法读取 CPU 温度 - Nodejs 或 WindowsForms
- cmake - 为avr构建代码时出现cmake构建问题
- php - 2C2P PKC7 从 PHP 解密 -> Ruby
- javascript - 三秒后做动作 JS
- linux - 无法在 Linux 命令行上执行 Praat 命令
- c# - 谁调用 MyLogger.Log?
- keras - LSTM 的自定义数据生成器
- c - C:将结构内容写入磁盘时,结构数组的字段中的sha256哈希函数输出导致崩溃
- python-3.x - 使用 keras 进行多类别图像分类