python-3.x - 从 word hippo 抓取网页
问题描述
我有一个关于从单词 hippo 中抓取单词的问题。我是 Beautiful Soup 的新手,不知道如何获得这个单词列表(如下所述)
我正在尝试获取页面以下部分下的所有同义词(即使是“更多”按钮下方的那些同义词。
第 1 节
第 2 节
#My code.
import requests
from bs4 import BeautifulSoup
response = requests.get("https://www.wordhippo.com/what-is/another-word-for/guard.html")
soup = BeautifulSoup(response.content, 'html.parser')
# select only first '<section class="synonyms-container....'
synonyms = soup.select('.MainContentContainer > section > .synonyms-container a')
print ('synonyms for: Guard')
for synonym in synonyms:
print (synonym.text)
请帮助提取这些单词的列表。
提前致谢。
解决方案
单词在.relatedwords
类容器中,要让第一部分和第二部分循环两次。
synonyms = soup.select('.relatedwords')
for i in range(0, 2):
print ('synonyms section ' + str(i + 1))
print (synonyms[i].text)
如果您想将每个单词存储为列表使用synonyms[i].split("\n")
推荐阅读
- azure-keyvault - 在 Azure 密钥库中存储和检索对称密钥
- python - 如何通过bs4查找所有字符串?
- visual-studio - 我可以使用 vscode 而不是 cloud9 进行 Web 开发吗
- openmpi - 从另一个具有不同进程数的 Open MPI 程序运行一个 Open MPI 程序
- hadoop - 相同reduce任务的两次尝试是否应该继续并行运行?
- html - 如何在 HTML 表单中提交多个复选框?
- c# - 对于 C#,在调用 Win32 函数(如 GetWindowText)时使用“字符串”而不是“字符串生成器”是否有不利之处?
- azure-ad-b2c - 向自定义策略添加限制并使声明可选 Azure B2C
- bash - find / -iregex ".*large_files.*" 跑不完
- python - Seaborn Regplot 和 Scikit-Learn 逻辑模型的计算方式不同?