regex - 如何计算网站上的表格数量
问题描述
对于我正在做的一个项目,我想列出或提取所有包含表单的页面(url) 。有没有一种简单的方法可以使用 Python 或其他工具来做到这一点?我正在考虑使用正则表达式来识别诸如 <\form> 标签之类的表单标识符,但不确定是否有更好或更有效的方法来做到这一点。
非常感谢任何有任何意见或想法的人。
解决方案
使用 BeautifulSoup
from BeautifulSoup import BeautifulSoup
import requests
import urlparse
soup = BeautifulSoup(fetch('yourUrl.com'))
form = soup.find('form')
推荐阅读
- c - 什么情况下会出现分段错误?
- jquery - Laravel flash 弹出通知
- r - 如何在没有 row.names / 行号的情况下打印 tibble
- angular - Angular Library Project:如何将文件从一个辅助输入点导入另一个辅助入口点
- excel - 多个条件如果条件 - 根据前面的条件确定最高数字
- c# - EF Core 映射错误的属性名称
- xsd - xml:使用条件属性
- ffmpeg - 如何在 macos 上为 ffmpeg 启用 libx264
- google-cloud-platform - Gcloud 在单个命令中覆盖区域、区域和机器类型
- android - 使用flutter create创建android文件夹