首页 > 解决方案 > 如何刮取中等配置文件?

问题描述

我正在尝试从 Medium 中抓取配置文件。

我什至准备了剧本。它也在工作:

from requests_html import HTMLSession

session = HTMLSession()
r = session.get('https://medium.com/@daranept27')
r.html.render()

x = r.html.find('a.eg.bv')
[print(elem.text) for elem in x]

但问题是它只使用一个配置文件链接,即如果您更改用户名,整个代码都会更改!类改变,CSS 选择器改变,XPATH 改变,一切都改变了!

我也可以通过 XML 抓取,但如果我必须自己抓取呢?

没有办法吗?因为他们之间似乎没有什么共同点。我需要一个方法,一个想法:/

标签: python-3.xweb-scrapingpython-requests

解决方案


尝试找到您想要的配置文件部分。获取其中一些并尝试识别某种模式

我调查过

https://medium.com/@daranept27

https://maxufberg.medium.com/

https://susanorlean.medium.com/

例如,一些“文章”<section>在内容所在的位置有一个标签。班级似乎发生了变化,但标签仍然存在。尝试按此过滤。然后你有一个<h1>,然后是一个<h2>。在此之后<figure>是包含图像的内容,然后是内容。

当代码发生很大变化时,我通常会关注结构而不是过多地关注类或 css。


推荐阅读