beautifulsoup - 使用 BeautifulSoup 查找嵌入信息
问题描述
一般来说,我对网络抓取和 BeautifulSoup 比较陌生。所以,如果这是一个新手问题,请原谅我。如果有类似的文章可以回答我的问题,请将链接发给我。
简而言之,我正在尝试从网站上抓取共轭图表。这是我的代码:
import requests
from bs4 import BeautifulSoup
url = "https://leconjugueur.lefigaro.fr/conjugaison/verbe/finir.html"
page=requests.get(url) soup = BeautifulSoup(page.content, 'html.parser')
table = soup.find_all('div',attrs={"class":"conjugBloc"})
try:
for x in table:
print (x.find('p').text)
except AttributeError: print("Attribute Error")
我希望我的结果看起来像这样:
Présent
je finis
tu finis
il finit
nous finissons
vous finissez
ils finissent
但是,我得到了:
Présent
Passé composé
Imparfait
Plus-que-parfait
Passé simple
Passé antérieur
Futur simple
Futur antérieur
Présent
Passé
Imparfait
Plus-que-parfait
Présent
Passé première forme
Passé deuxième forme
Attribute Error
我得到的是标题,但不是属于它们的信息。任何关于我做错了什么的建议将不胜感激!
解决方案
尝试:
table = soup.select('div.tempsBloc[id="temps0"] ~p')
targets = str(table[0]).split('<br/>')
for target in targets:
print(BeautifulSoup(target,'lxml').text)
输出:
je finis
tu finis
il finit
nous finissons
vous finissez
ils finissent
推荐阅读
- ffi - 如何使用 FFI::Platypus 从指针引用中获取字符串值?
- html - 隐藏图像后面的输入字段文件
- javascript - 是否有一段 javascript 代码可以全部大写?
- amazon-web-services - 需要对 s3 中的文件进行验证并将其复制到两个不同的表中
- html - Safari:即使隐藏元素,阴影过滤器仍然可见
- javascript - 将数据从按钮传递到模态 boostrap
- printing - 为什么我的组合函数在删除小数点后不能正确打印大数?(在 Lua 中)
- active-directory - 从 VB.Net 中的 ActiveDirectory 中检索 SAMAccountName
- javascript - 停止 dom 中的 href 事件并继续 DOM 事件?
- java - 什么时候迭代器应该在源修改后抛出异常?