python-3.x - 如何刮取中等配置文件?
问题描述
我正在尝试从 Medium 中抓取配置文件。
我什至准备了剧本。它也在工作:
from requests_html import HTMLSession
session = HTMLSession()
r = session.get('https://medium.com/@daranept27')
r.html.render()
x = r.html.find('a.eg.bv')
[print(elem.text) for elem in x]
但问题是它只使用一个配置文件链接,即如果您更改用户名,整个代码都会更改!类改变,CSS 选择器改变,XPATH 改变,一切都改变了!
我也可以通过 XML 抓取,但如果我必须自己抓取呢?
没有办法吗?因为他们之间似乎没有什么共同点。我需要一个方法,一个想法:/
解决方案
尝试找到您想要的配置文件部分。获取其中一些并尝试识别某种模式。
我调查过
https://medium.com/@daranept27
https://susanorlean.medium.com/
例如,一些“文章”<section>
在内容所在的位置有一个标签。班级似乎发生了变化,但标签仍然存在。尝试按此过滤。然后你有一个<h1>
,然后是一个<h2>
。在此之后<figure>
是包含图像的内容,然后是内容。
当代码发生很大变化时,我通常会关注结构而不是过多地关注类或 css。
推荐阅读
- javascript - 是否可以使 css 动画“简单”?
- javascript - 使用文档 auto-id firebase 查询“where”子句
- html - Qt 创建一个左箭头样式的按钮
- node.js - FCM iOS:推送通知抛出无效参数
- c++ - 模板专业化与编译器优化
- machine-learning - 如何知道特征变量是否“足够好”以构建分类器
- html - 是什么导致 pre 高于reveal.js 中的代码?
- sql - 选择查询在 SQL 中的工作原理
- react-native - 如何更改反应抽屉导航器后退按钮图标?
- python - 将 groupby 的总和作为 Pandas 中具有不同值的新列