python - 如何在python中解析html标签层次结构?
问题描述
我有一个 html 页面,我正在使用漂亮的汤提取所有标题(h1
to h7
),现在我想要一个列表,我想将所有直接更高级别的标签附加到当前标签。
例如,我有这个示例 html 页面:
<!DOCTYPE html>
<html>
<head>
<title></title>
</head>
<body>
<h1>dummy h1</h1>
<h1>head 1</h1>
<p>para 1</p>
<h2>head 2</h2>
<p>para 2</p>
<h3>head 3</h3>
<p>p for head3</p>
<h2>head2(2)</h2>
<p>para3</p>
<h1>head1(2)</h1>
<h2>2nd h2</h2>
<h3>2nd h3</h3>
<p>2nd p for h3</p>
</body>
</html>
这里我想要的列表应该是这样的
['head1','head1 head2','head1 head2 head3','head1 head2(2)','head1(2)','head1(2) 2nd h2','head1(2) 2nd h2 2nd h3']
我正在使用的逻辑是在从当前 h 标签向后遍历时遇到较小的 h 标签时立即中断循环。这造成了一个问题,因为循环在从理想情况下应该向上的位置head3
返回时中断。这是我尝试过的代码:head2(2)
head1
file = open("sample.html","r")
page = file.read()
soup = BeautifulSoup(page, 'html.parser')
tags=['h1','h2','h3','h4','h5','h6','h7']
start=soup.find('h1') # the page I am working on starts with a dummy
head=[]
h=[]
h3=[]
for ele in start.next_siblings:
for i,tag in enumerate(tags):
if (ele.name==tag):
head.append('')
h.append(ele)
h3=deepcopy(h)
h3.reverse()
for j, q in enumerate(h3):
if q.name in tags[:i]:
head[len(head)-1]=(q.text.strip()) + ' ' + head[len(head)-1]
if j < len(h)-1 and (tags.index(q.name) == tags.index(h3[j+1].name)):
continue
if j < len(h)-1 and (tags.index(q.name) < tags.index(h3[j+1].name)):
break
head[len(head)-1]+=(ele.text.strip())+' '
break
print(head)
请建议我可以做些什么来避免这个问题。
解决方案
我发现你的算法出了什么问题。你只需要对q.name
你的break
条件下的值做一个测试
if j < len(h)-1 and (tags.index(q.name) < tags.index(h3[j+1].name)) and q.name == 'h1':
break
所以完整的代码将是:
file = open("sample.html","r")
page = file.read()
soup = BeautifulSoup(page, 'html.parser')
tags=['h1','h2','h3','h4','h5','h6','h7']
start=soup.find('h1') # the page I am working on starts with a dummy
head=[]
h=[]
h3=[]
for ele in start.next_siblings:
for i,tag in enumerate(tags):
if (ele.name==tag):
head.append('')
h.append(ele)
h3=deepcopy(h)
h3.reverse()
for j, q in enumerate(h3):
if q.name in tags[:i]:
head[len(head)-1]=(q.text.strip()) + ' ' + head[len(head)-1]
if j < len(h)-1 and (tags.index(q.name) == tags.index(h3[j+1].name)):
continue
if j < len(h)-1 and (tags.index(q.name) < tags.index(h3[j+1].name)) and q.name == 'h1':
break
head[len(head)-1]+=(ele.text.strip())+' '
break
print(head)
输出:
['head 1 ', 'head 1 head 2 ', 'head 1 head 2 head 3 ', 'head 1 head2(2) ', 'head1(2) ', 'head1(2) 2nd h2 ', 'head1(2) 2nd h2 2nd h3 ']
让我知道它是否有帮助:-)
推荐阅读
- authentication - 如何使用 OIDC 请求刷新令牌
- c - 使用 MSVC 命令行创建动态库
- python - 从 csv 文件中获取一些数字的平均值作为输入,并将平均值写入 python 3 中的输出 csv 文件
- python - 有条件地将多个列分配给另一个 DataFrame(条件确定分配该行中的哪一组列)
- python - 带有多个条件的 while 循环由“and”连接
- node.js - Javascript 承诺迭代/包含动态数量的参数
- api - API 调用失败并在 OneLogin 中超出速率限制
- javascript - 从 SQL 表中 Javascript 对象格式的字符串中过滤数组的字符串键
- excel - 在将数据粘贴到新工作表之前添加行(在特定单元格之间)
- sqlalchemy - 执行多个 SQL 提交或单个提交后跟另一个调用更好吗?