首页 > 解决方案 > 如何使用 python scrapy 解析 html 字符串

问题描述

我有一个 html 输入元素列表,如下所示。

lists=[<input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc">,
<input type="text" class="form-control" id="username" name="username">,
<input type="password" class="form-control" id="password" name="password">,
<input type="submit" value="Login" class="btn btn-primary">]

从这些我需要提取nametypevalue的属性值

例如:考虑输入<input type="hidden" name="csrf_token" value="jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc"> ,然后我需要输出如下字典格式 {'csrf_token':('hidden',"jZdkrMumEBeXQlUTbOWfInDwNhtVHGSxKyPvaipoAFsYqCgRLJzc")}

任何人都可以请指导解决这个问题

标签: pythondictionaryscrapyhtml-parsing

解决方案


我建议您使用 Beautiful Soup Python 库 ( https://pypi.org/project/beautifulsoup4/ ) 来获取 HTML 内容和元素的值。已经为此目的创建了一些函数。


推荐阅读