python - 在锚标记中抓取嵌套标题 - python 中的网络抓取
问题描述
嗨,我正在尝试网页抓取以下页面:
https://www.imdb.com/chart/top
当您将鼠标悬停在任何电影名称上时,我想获取所有显示的导演名称:
这是我所做的:
direc = requests.get(imdb).content
direc_b = BeautifulSoup(direc, 'lxml')
direc_b_t = direc_b.find_all(class_= "titleColumn")
我得到的结果如下:
<td class="titleColumn">
1.
<a href="/title/tt0111161/" title="Frank Darabont (dir.), Tim Robbins, Morgan Freeman">Die Verurteilten</a>
<span class="secondaryInfo">(1994)</span>
</td>
我想抓住的是以下行,但我不确定接下来应该做什么。:
title="Frank Darabont (dir.), Tim Robbins, Morgan Freeman
任何想法?
谢谢
解决方案
这应该工作
import requests
from bs4 import BeautifulSoup
request = requests.get("https://www.imdb.com/chart/top")
soup = BeautifulSoup(request.content, "html.parser")
for td in soup.findAll('td', {'class': 'titleColumn'}):
for each in td.findAll('a'):
director = each.get('title')
print(director)
推荐阅读
- sql - SQL查询缺少选择语句获取数据错误
- r - 通过来自 Tibble 数据帧的部分字符串匹配对列表进行子集
- text - 如何在太多文本中检测重复的“单词序列”?
- javascript - Ember 辛烷值和 JQuery
- php - 如何在 PHP 中调用数组中的类方法?
- solr - Solr - “maxWriteMBPerSec”配置值是以兆字节还是兆比特为单位?
- c# - ASP.NET MVC:将数据从控制器中定义的数据表打印到视图
- java - 如何从 JSON 对象中获取特定变量?
- angular - 如何在 Angular 中使用 Promise() 显示来自后端的数据?
- c# - 获取PDF图像DPI c#