首页 > 解决方案 > Beautiful Soup,抓取没有常量/定义类或 id 的信息

问题描述

我正在从谷歌专利中抓取信息,目前我正在尝试从每个专利中抓取“发明领域”部分。但是,在检查 html 时,它似乎没有自己的“字段”类或 id 允许我获取信息,所以我不确定如何获取我需要的描述。例如,鉴于此专利:https ://patents.google.com/patent/EP3017304B1/en ,我不知道如何从“发明的技术领域”中抓取信息。

一些专利的发明领域可能在不同的地方,比如这个:https ://patents.google.com/patent/US8560271B2/en ,甚至只标注了“领域”。有些专利可能根本不包含发明领域,或者它们可能被标记或放置在不容易找到的地方,例如:https ://patents.google.com/patent/AU2016304408B2/en 。

因此,我不确定我如何能够始终如一地从专利页面上抓取发明领域

标签: pythonweb-scrapingbeautifulsoupgoogle-patent-search

解决方案


你可以这样做:

container = soup.find('ul', {'mxw-id': 'PDES120175635'}).find('div', {'num': '0001'}).string

从“发明的技术领域”中获取文本。其他的也有一个唯一的编号。玩转检查控制台。


推荐阅读