首页 > 解决方案 > 使用 Python 和 BeautifulSoup 抓取 Ajax.requests - 看似随机的页码返回空白

问题描述

我正在用 BeautifulSoup 抓取一个书评网站,其中有 10 页评论,每页有 30 条评论。我可以从 10 页中得到 8 页,但第 4 页和第 6 页似乎返回空白刮痕。

这是一个简单的演示:

import pandas as pd
from pandas import Series,DataFrame
from bs4 import BeautifulSoup
import requests
import fnmatch
import os

url='https://www.goodreads.com/book/reviews/1202.Freakonomics?amp;page=4'

result = requests.get(url)
soup = BeautifulSoup(result.content, 'lxml')

soup.prettify()

这将返回空白。但是,用 1-10 中的任何其他页面替换 4 或 6 将返回完整的抓取页面。

对于这里可能发生的事情,我将不胜感激。谢谢

标签: pythonbeautifulsoup

解决方案


推荐阅读