首页 > 解决方案 > 在网站上查找和计算单词的匹配项 - 抓取

问题描述

我需要找到一个 WORD 的匹配项,例如:

在网络https://www.georgetown.edu/中找到所有单词“Learn” (结果:4 个单词)(您可以看到它按 CTRL + F 并搜索)

我有我的 Python 代码,但我的计数匹配是 3!如果我寻找另一个词,结果是少一个或多一个

import requests
from bs4 import BeautifulSoup
import re

page = requests.get("https://www.georgetown.edu/")
soup = BeautifulSoup(page.text, 'html.parser')
solo_body = soup.body
limpiar_body = solo_body.text
contar_coincidencias = (limpiar_body.count("learn"))
print(contar_coincidencias)

实际上使用 Python3,“find_all”对我不起作用。

标签: pythonweb-scraping

解决方案


你需要计算大小写。替换limpiar_body = solo_body.textlimpiar_body = solo_body.text.lower()

请注意,它会给你5匹配而不是4. 原因是它也会匹配自上而下菜单的结果,并且在Learning菜单中出现 1 次,如下图所示,

在此处输入图像描述


推荐阅读