python - Python中beautifulsoup.find()的问题
问题描述
我是网络开发的新手,我正在尝试制作这个网站的网络爬虫。
我想抓住主要内容,<div class="entry-content">
所以我尝试了这段代码:
main_content = soup.find_all("div", class_="entry-content")
但它总是在Jukugo桌子的中间切断。
但是,当我检查页面并将其复制<div class="entry-content">
并粘贴到另一个文件时,整个内容显示得很好,没有中断。
你能帮我找出这里的问题吗?我应该如何爬取这个网站?太感谢了。
对不起,如果我的问题是迂回的,英语不是我的母语。
我想抓取的内容:
我抓取的内容:
解决方案
我只是尝试使用select
BeautifulSoup 的功能来抓取页面,并认为这会产生您想要的结果:
soup.select("div.entry-content")
.
请注意,通过该select
功能,您可以使用 CSS 选择器(例如div.entry-content
)轻松访问嵌套元素。
推荐阅读
- java - Java Bean Mapper - 使用自定义方法创建
- gitlab - 无法访问 gitlab-ci-token 连接失败
- java - 通过部分用户条目JAVA搜索数组列表
- jquery - 如何使用 css 定位位于另一个 div 下方的 div
- c++ - 在 64 位 x86 机器中读/写双值是原子的吗
- gradle - 如何使用 Gradle 和 JUnit 并行运行测试(每个测试)
- swift - DataFormatter.date(from: " ") return wrong value (- 1 day) Swift
- java - 如何从绑定结果验证失败中返回错误响应?
- python - 目录创建问题
- r - 创建在 R data.frame 中重复相邻值的列