python - 使用 selenium 从网站获取跨度文本
问题描述
我试图抓取的网站如下所示:
<div align="center" class="movietable">
<span style="width:45px;height:47px;vertical-align:middle;display:table-cell;">
<a href="browse.php?cat=19"><img border="0" src="styles/images/cat/hd.png" alt="HdO"></a>
</span>
</div>
<div align="left" class="movietable">
<span style="padding:0px 5px;width:455px;height:47px;vertical-align:middle;display:table-cell;">
<a data-toggle="tooltip" data-placement="bottom" data-html="true" title="" href="details.php?id=578197" data-original-title="<img src='https://trasd.tmdb.org//tqistSlQGQVlvDZHweD.jpg'>">
<b>GET THIS TEXT</b></a><br><font class="small">[Action, Horror, Sci-Fi]</font>
</span>
</div>
我怎样才能提取:
<b>
标签中的文本- 在这种情况下GET THIS TEXT
font_class= 'small' 的内容 - 在这种情况下,这将是
Action, Horror, Sci-Fi
.movietable b 效果很好!!img_scr 链接 - 在这种情况下,它将是
https://trasd.tmdb.org//tqistSlQGQVlvDZHweD.jpg
我不知道该怎么做
解决方案
以下是您可以使用的 CSS 选择器:
driver.find_element_by_css_selector('div[align=left] b')
driver.find_element_by_css_selector('div[align=left] .small')
driver.find_element_by_css_selector('a[title]').get_attribute('data-original-title')
推荐阅读
- python - 有没有办法将 Ride .Robot txt 文件转换为 Python Robot.api 代码?
- multithreading - 有没有办法在 Rust 中实现两阶段锁定?实现成长期几乎是不可能的
- flutter - 在flutter中获取一个json对象
- machine-learning - R 的 H2o 中的 GAM 模型
- java - 使用键解决自动建议下拉方法的任何方法
- c++ - 有没有办法修复这些错误?
- python-3.x - 使用日期时间更改日期字符串格式
- r - 将目录移动到 s3 存储桶中
- postgresql - Gorm:pq 重复键违反唯一约束
- laravel - Auth::user() 返回 Null (Laravel + Passport)