首页 > 技术文章 > 股票搜索引擎-spider

binbinbj 2017-11-10 12:45 原文

不得不说博客园是很老土的,里面的标签居然没有搜索引擎,一看就是自以为是的开发者自己定义的。最后只好选了人工智能,反正所有的东西都可以和人工智能沾边。

不过我喜欢这么老土的产品,不会被AI恶心到。


要做一个搜索引擎,第一步是spider。spider有很多指标,例如有总结出如下:

1. python 脚本控制,可以用任何你喜欢的html解析包(内置 pyquery)
2. WEB 界面编写调试脚本,起停脚本,监控执行状态,查看活动历史,获取结果产出
3. 支持 MySQL, MongoDB, SQLite
4. 支持抓取 JavaScript 的页面
5. 组件可替换,支持单机/分布式部署,支持 Docker 部署
6. 强大的调度控制


其中 js渲染可谓是html5时代的一个新特征,基本都是调用webkit在后台运行然后执行get_body取到渲染好的内容。


现在有两个选择:

1,老牌的 Scrapy

2,国内某大神开发了个WebUI的pyspider,一看名字就知道是中国人起英文名字的机习惯。https://github.com/binux/pyspider


Scrapy原生不支持js渲染,需要单独下载[scrapy-splash](GitHub - scrapy-plugins/scrapy-splash: Scrapy+Splash for JavaScript integration)

而PyScrapy内置支持[scrapyjs](GitHub - scrapy-plugins/scrapy-splash: Scrapy+Splash for JavaScript integration);

PySpider内置 pyquery选择器

Scrapy有XPath和CSS选择器


个人还是喜欢XPath和CSS的,不过也倾向于支持一下国货。

推荐阅读