首页 > 解决方案 > 在锚标记中抓取嵌套标题 - python 中的网络抓取

问题描述

嗨,我正在尝试网页抓取以下页面:

https://www.imdb.com/chart/top

当您将鼠标悬停在任何电影名称上时,我想获取所有显示的导演名称:

这是我所做的:

direc = requests.get(imdb).content
direc_b = BeautifulSoup(direc, 'lxml')
direc_b_t = direc_b.find_all(class_= "titleColumn")

我得到的结果如下:

<td class="titleColumn">
       1.
       <a href="/title/tt0111161/" title="Frank Darabont (dir.), Tim Robbins, Morgan Freeman">Die Verurteilten</a>
 <span class="secondaryInfo">(1994)</span>
 </td> 

我想抓住的是以下行,但我不确定接下来应该做什么。:

title="Frank Darabont (dir.), Tim Robbins, Morgan Freeman 

任何想法?

谢谢

标签: pythonwebweb-scraping

解决方案


这应该工作

import requests
from bs4 import BeautifulSoup

request = requests.get("https://www.imdb.com/chart/top")
soup = BeautifulSoup(request.content, "html.parser")

for td in soup.findAll('td', {'class': 'titleColumn'}):
    for each in td.findAll('a'):
        director = each.get('title')
        print(director)

推荐阅读