首页 > 解决方案 > 使用 BeautifulSoup 抓取数据

问题描述

我正在尝试将数据从该站点抓取到字典中,

from bs4 import BeautifulSoup 
import requests 
from pprint import pprint

page = requests.get('https://webscraper.io/') 
soup = BeautifulSoup(page.text, "lxml")

info = []
for x in range(1,7):
    items = soup.findAll("div",{"class":f"info{x}"})
    info.append(items)

但是,HTML 标记并未被删除。

标签: pythonhtmlpython-3.xweb-scrapingbeautifulsoup

解决方案


像这样的东西可能有用吗?(将 webscraper.io 网址替换为您的实际请求网址;此外,您仍然需要清除输出中的 \n 字符):

from bs4 import BeautifulSoup 
import requests 
from pprint import pprint

page = requests.get('https://webscraper.io/') 
soup = BeautifulSoup(page.text, "lxml")

info = []
for x in range(1,7):
    items = soup.findAll("div",{"class":f"info{x}"})
    info += [item.text for item in items]

即 item.text,并将结果数组与 info 连接起来


推荐阅读