python - 使用 BeautifulSoup 抓取数据
问题描述
我正在尝试将数据从该站点抓取到字典中,
from bs4 import BeautifulSoup
import requests
from pprint import pprint
page = requests.get('https://webscraper.io/')
soup = BeautifulSoup(page.text, "lxml")
info = []
for x in range(1,7):
items = soup.findAll("div",{"class":f"info{x}"})
info.append(items)
但是,HTML 标记并未被删除。
解决方案
像这样的东西可能有用吗?(将 webscraper.io 网址替换为您的实际请求网址;此外,您仍然需要清除输出中的 \n 字符):
from bs4 import BeautifulSoup
import requests
from pprint import pprint
page = requests.get('https://webscraper.io/')
soup = BeautifulSoup(page.text, "lxml")
info = []
for x in range(1,7):
items = soup.findAll("div",{"class":f"info{x}"})
info += [item.text for item in items]
即 item.text,并将结果数组与 info 连接起来
推荐阅读
- python-3.6 - 在 Anaconda Spyder 中使用 Python 3.6 中的大型机数据集
- java - Thymeleaf Spring MVC 的 UTF-8 编码问题
- excel - 在 Access 中使用 VBA 更改 Excel 单元格文本颜色
- java - 使用 java 和 Xpath 获取 xml 的所有属性
- sql - 如何修复数据库中的拼写错误 在该记录中有多个记录 还有更多记录
- python - Python Matplotlib 在后台更新绘图
- sphinx - 在 sphinx-query 中使用不同 user_weights 的字段两次
- python-3.x - 'map' 对象在 python3 中不可下标
- scala - 如何从单个字符串列 RDD 中有效地提取多列?
- linux - http:接受错误:接受tcp [::]:8080:accept4:打开的文件太多;