首页 > 技术文章 > 爬虫.资料(主要是PySpider+PhantomJS)

pythonzc 2020-01-07 11:06 原文

1、

 第一个Python爬虫_sunon_的博客-CSDN博客.html(https://blog.csdn.net/sunon_/article/details/90634253

 如何学习Python爬虫[入门篇]? - 知乎.html(https://zhuanlan.zhihu.com/p/21479334

  ZC:看了 “四、爬虫进阶”下面的文章“Python爬虫进阶四之PySpider的用法 _ 静觅.html(https://cuiqingcai.com/2652.html)”,发现文章下面有遮挡 不给看(需要扫码什么的才能看完整文章),简单测试删了一些网页上的节点 发现将 下面的节点删掉之后就OK了(整个<header class="article-header"/>直接全删):

        <header class="article-header">
            <h1 class="article-title"><a href="https://cuiqingcai.com/2652.html">Python爬虫进阶四之PySpider的用法</a></h1>
            <div class="meta">
                <span id="mute-category" class="muted"><i class="fa fa-list-alt"></i><a href="https://cuiqingcai.com/category/technique/python"> Python</a></span>                <span class="muted"><i class="fa fa-user"></i> <a href="https://cuiqingcai.com/author/cqcre">崔庆才</a></span>
                <time class="muted"><i class="fa fa-clock-o"></i> 2016-03-26 2:32</time>
                <span class="muted"><i class="fa fa-eye"></i> 152362浏览</span>
                <span style="display: none" id="unlock-tag">0</span>
                <span class="muted"><i class="fa fa-comments-o"></i> <a href="https://cuiqingcai.com/2652.html#comments">94评论</a></span>
            </div>
        </header>

  ZC:看到 PhantomJS 是WebKit内核,无界面解析 js,很好,但是 貌似 它已经死了...(度娘“PhantomJS 终止”、“PhantomJS 替代”等)  然后 看到 相关替代的文章:

  (1)、用Python做爬虫的各位,不要再用PhantomJS了 - 简书.html(https://www.jianshu.com/p/31f2b63437ed

  (2)、PhantomJS的替代品--无头浏览器(Headless Chrome) - 暮良文王 - 博客园.html(https://www.cnblogs.com/liangmingshen/p/9989049.html)[ ZC:关键词:"Headless Chrome"、"Headless模式在Windows中是Chrome 59中的新特征"、"chromedriver" ] 

    ZC:里面看到一句“其他用法与PhantomJS基本相同”,看来 可能还是需要 先学习一下 PhantomJS的用法...

2、

3、度娘“headless chrome chromedriver python”

 selenium+python headless访问网页_不屑哥的专栏-CSDN博客.html(https://blog.csdn.net/fuck487/article/details/80453499

 python - chromedriver headless 模式 如何屏蔽日志 - SegmentFault 思否.html(https://segmentfault.com/q/1010000015567003

 用Python驱动Headless Chrome - 简书.html(https://www.jianshu.com/p/11d519e2d0cb

 Python3 + Selenium + Headless Chrome采集 - 简书.html(https://www.jianshu.com/p/78ae67b6eb2b

 selenium+webDriver+headless Chrome实现python爬虫 - 星空和月 - 博客园.html(https://www.cnblogs.com/fhjy/p/9762908.html

 

 完美解决Window下Python多版本共存_切换_yaoyutian的博客-CSDN博客.html(https://blog.csdn.net/yaoyutian/article/details/83629610

 python3.7.0+selenium的环境搭建 - 猪太肥 - 博客园.html(https://www.cnblogs.com/yaoze2018/p/9822940.html

4、

5、

推荐阅读