首页 > 解决方案 > 爬行蜘蛛并安排它们

问题描述

我创建了一个抓取新闻的蜘蛛。我也想运行那个蜘蛛并安排它。它在一个 django 项目中。这样,蜘蛛就会抓取数据并将其放入数据库中,django 将使用该数据库来显示相同​​的数据。这是我的蜘蛛

`class NewsSpider(CrawlSpider): name = "news"

start_urls = ['https://zeenews.india.com/latest-news']

def start_requests(self):
    urls = ['https://zeenews.india.com/latest-news']

    for url in urls:
        yield scrapy.Request(url=url, callback=self.parse)


def parse(self, response):


    item = NewsScraperItem()
    
    data = response.css('div.sec-con-box')

    item['headlines'] = data.css('h3::text').extract_first()

    item['content'] = data.css('p::text').extract_first()

    return item`

items.py:`从scrapy_djangoitem 导入scrapy 从news.models 导入DjangoItem 导入LatestNews

class NewsScraperItem(DjangoItem): # 在这里为您的项目定义字段,例如:# name = scrapy.Field() django_model = LatestNews`

标签: pythondjangoscrapy

解决方案


要启用调度并确保爬虫在后台工作,我建议您使用Django Background Tasks repo

在此处查看文档。


推荐阅读