首页 > 解决方案 > href类的python美丽汤问题

问题描述

我有这个代码:

...code ommited...
tda = soup.findAll('a', attrs={'href': re.compile("https://link/browse/[A-Z]{2,4}-[0-9]{1,7}"), "class":"external-link"}) # Find all A tag with specific href    

...code ommited...

first_end_tag_index = a_tag_as_str.find(">")

a_tag_as_str_index = "".join(html_as_list).find(a_tag_as_str[:first_end_tag_index + 1])

...code ommited...
 
OUTPUT:
first_end_tag_index:  90

a_tag_as_str_index:  -1

当我的锚像

"<a href="https://link/browse/DDD-0001" class="external-link" rel="nofollow">DDD-0001</a>" 

我得到-1就像

"<a class="external-link" href="https://link/browse/DDD-0001" rel="nofollow">DDD-0001</a>" 

我得到> -1

我错过了什么?为什么漂亮的汤希望类在 href 之前?

有什么方法可以让它不检查那里的班级吗?

标签: pythonbeautifulsoup

解决方案


推荐阅读