首页 > 技术文章 > 爬虫.PySpider的一些积累(技巧等)

pythonzc 2020-04-04 21:35 原文

1、pyspider - 作业部落 Cmd Markdown 编辑阅读器.html(https://www.zybuluo.com/twein89/note/993829

  抓取脚本编写参考文档

  参考api文档
  页面解析器pyquery文档
  框架作者博客里有pyspider中文系列教程,可以先看这个

 

  调试

  调试可以直接使用print语句输出信息
  推荐在命令行里使用pyspider框架的one命令,比在网页中调试更方便:
  cd demo_project
  pyspider one demo/demo.py
  命令行里会输出print的信息,pprint的输出会更友好美观。

 

2、PySpider的文件存放路径:

  网上搜索了一下说是在 data目录下的?.db文件。于是Win10下找了  目录"C:\Users\33\data",里面还真有一些.db文件。

 ZC:为保万一,还是自己弄个备份吧...

  2.1、【爬虫】Windows 中Pyspider的代码存放路径 - 简书.html(https://www.jianshu.com/p/d1c44bcd2b15

Pyspider是一个好用的国内牛人写的python爬虫框架,拥有独特的webui,为编写和调试爬虫带来了极大的方便。
但是最近打开pyspider发现里面的工程文件全部不见了。。。
在知乎上看到简书的作者回答其他网友此问题时说是在数据库里。
Linux中的数据库文件在执行Pyspider的当前目录下。
windows中,因为我执行的时候是win+R打开之后执行的,所以start.打开用户目录找了找,在data目录里有几个.db文件,最后发现工程文件存放在project.db文件中,任务记录存放在task.db文件中。
使用SQLiteStudio打开project.db文件在script字段以文本形式就可以看到代码了。
仅此记录

 

3、response.doc(...) 返回的是 PyQuery对象,对PyQuery不熟悉...但是至少有了线索...

 3.1、节点.text()  获取节点内的文本

4、

5、

 

推荐阅读