1、pyspider - 作业部落 Cmd Markdown 编辑阅读器.html(https://www.zybuluo.com/twein89/note/993829)
抓取脚本编写参考文档
参考api文档
页面解析器pyquery文档
框架作者博客里有pyspider中文系列教程,可以先看这个
调试
调试可以直接使用print语句输出信息
推荐在命令行里使用pyspider框架的one命令,比在网页中调试更方便: cd demo_project
pyspider one demo/demo.py
命令行里会输出print的信息,pprint的输出会更友好美观。
2、PySpider的文件存放路径:
网上搜索了一下说是在 data目录下的?.db文件。于是Win10下找了 目录"C:\Users\33\data",里面还真有一些.db文件。
ZC:为保万一,还是自己弄个备份吧...
2.1、【爬虫】Windows 中Pyspider的代码存放路径 - 简书.html(https://www.jianshu.com/p/d1c44bcd2b15)
Pyspider是一个好用的国内牛人写的python爬虫框架,拥有独特的webui,为编写和调试爬虫带来了极大的方便。 但是最近打开pyspider发现里面的工程文件全部不见了。。。 在知乎上看到简书的作者回答其他网友此问题时说是在数据库里。 Linux中的数据库文件在执行Pyspider的当前目录下。 windows中,因为我执行的时候是win+R打开之后执行的,所以start.打开用户目录找了找,在data目录里有几个.db文件,最后发现工程文件存放在project.db文件中,任务记录存放在task.db文件中。 使用SQLiteStudio打开project.db文件在script字段以文本形式就可以看到代码了。 仅此记录
3、response.doc(...) 返回的是 PyQuery对象,对PyQuery不熟悉...但是至少有了线索...
3.1、节点.text() 获取节点内的文本
4、
5、