首页 > 解决方案 > 如何计算网站上的表格数量

问题描述

对于我正在做的一个项目,我想列出或提取所有包含表单的页面(url) 。有没有一种简单的方法可以使用 Python 或其他工具来做到这一点?我正在考虑使用正则表达式来识别诸如 <\form> 标签之类的表单标识符,但不确定是否有更好或更有效的方法来做到这一点。

非常感谢任何有任何意见或想法的人。

标签: regexformsweb-crawler

解决方案


使用 BeautifulSoup

from BeautifulSoup import BeautifulSoup
import requests
import urlparse
soup = BeautifulSoup(fetch('yourUrl.com'))
form = soup.find('form')

以供参考


推荐阅读