python - 如何找到一个独特的 HTML 元素?
问题描述
我正在查看一个带有一堆名为“tspan”的标签的 URL。这可能是隐藏的,还是以某种方式没有暴露?
如何获取“extract”以及“source_load”和所有其他 tspan 元素,将所有内容加载到列表中,然后将列表转储到桌面上的文件中?这是我正在测试的代码。
from bs4 import BeautifulSoup as bs
import webbrowser
import requests
REQUEST_URL = 'https://corp-intranet.com/admin/'
response = requests.get(REQUEST_URL, auth=('em_email', 'pswd'))
xml_data = response.text.encode('utf-8', 'ignore')
url_list = ['https://corp-intranet.com/admin/ad_history']
for link in url_list:
File = webbrowser.open(link)
File = requests.get(link)
data = File.text
soup = bs(data, "lxml")
all_text = []
for link in soup.findAll('tspan'):
all_text.append(link.get('tspan'))
print(all_text)
with open('C:/Users/ryans/OneDrive/Desktop/test.txt', 'wb') as outfile:
for f in all_text:
with open(f, '\n') as infile:
outfile.write(f.encode('utf-8'))
outfile.write(infile.read())
解决方案
您需要使用get_text()
方法来获取标签的文本。tag.get(...)
用于获取标签内的内容。尝试all_text.append(link.get_text())
此外,如果您需要的内容是动态加载的并且没有出现在原始页面源中,您将不会在请求中看到它。您可以使用 selenium 来克服这个问题(此处为快速入门指南)。
推荐阅读
- python - 使用 keras ImageDataGenerator - AttributeError: 'DirectoryIterator' object has no attribute 'argmax' 时如何获取分类报告(F1 分数)
- c - 当偏移量为非负数(但是是 sysconf(_SC_PAGE_SIZE) 的倍数)时,为什么 mmap 会因 EINVAL 而失败?
- algorithm - 使用动态规划的有效括号数[优步电话采访]
- flutter - 如何在颤振中创建自定义对话框?
- google-apps-script - 隐藏行时谷歌表格隐藏图像
- flutter - 颤振中的 Dio 没有完成函数然后没有更新 FutureBuilder
- here-api - 不同的 HERE API - 获取图层属性
- gcc - 我可以为 gcc/ld 指定部分部分的顺序吗
- javascript - 电子js没有正确加载jquery
- npgsql - 您能解释一下如何解决以下问题吗?