首页 > 解决方案 > Python中beautifulsoup.find()的问题

问题描述

我是网络开发的新手,我正在尝试制作这个网站的网络爬虫。

我想抓住主要内容,<div class="entry-content">所以我尝试了这段代码:

main_content = soup.find_all("div", class_="entry-content")

但它总是在Jukugo桌子的中间切断。

但是,当我检查页面并将其复制<div class="entry-content">并粘贴到另一个文件时,整个内容显示得很好,没有中断。

你能帮我找出这里的问题吗?我应该如何爬取这个网站?太感谢了。

对不起,如果我的问题是迂回的,英语不是我的母语。

我想抓取的内容:

主要内容

我抓取的内容:

隔断

标签: pythonpython-3.xwebbeautifulsoupweb-crawler

解决方案


我只是尝试使用selectBeautifulSoup 的功能来抓取页面,并认为这会产生您想要的结果:

soup.select("div.entry-content").

请注意,通过该select功能,您可以使用 CSS 选择器(例如div.entry-content)轻松访问嵌套元素。


推荐阅读