首页 > 解决方案 > 使用 Selenium Python 和选择器进行爬网

问题描述

我正在编写一个测试脚本来抓取来自 LinkedIn 用户的一些数据。除了个人技能外,几乎一切对我来说都很好。您可以在下面看到该部分的 HTML 结构:

<div class="pv-deferred-area__content">
<section id=".." class="pv-profile-section pv-skill-categories-section artdeco-card mt4 p5 ember-view">
<div class="display-flex">...</div>
<ol class="...">
   <li id="..." class="...">
   <div class="..." ...>
      <div ...>
         <p ... >
           <a...>
              <spam class="pv-skill-category-entity__name-text t-16 t-black t-bold">SkillName</spam>
           </a>
         </p>
      </div>
   </div>
   </li>
</ol>

使用 Selector,我得到了页面的源代码:

sel = Selector(text=driver.page_source)

现在,我要做的就是获取所需的信息:

skills = sel.xpath('//*[starts-with(@class, "ppv-skill-category-entity__name-text t-16 t-black '
                               't-bold")] / text()').extract()

但是,返回的列表是空的。这里有什么问题?

标签: htmlpython-3.xselenium-chromedriverweb-crawler

解决方案


推荐阅读