python - 我如何获取每个抓取的 URL 文本值我只获取最后一个 URL 值
问题描述
我是 Python 新手。通过这段代码,我只保留 URL 值,但我希望每个 URL 都抓取内容。
contents = []
with open('c:\\users\\thegl\\documents\\datab.csv','r') as csvf: # Open file in read mode
urls = csv.reader(csvf)
for url in urls:
contents.append(url) # Add each url to list contents
for url in contents: # Parse through each url in the list.
page = urlopen(url[0]).read()
soup = BeautifulSoup(page, "html.parser")
for List in soup.find_all('ol',class_='breadcrumb'):
for listext in List.find_all('li'):
print(listext.text)
文件 datab.csv 包含以下 ULS: https ://www.dumpstool.com/1Y0-371-exam.html https://www.dumpstool.com/TK0-201-exam.html https://www.dumpstool。 com/C9510-401-exam.html
解决方案
您应该缩进最后一个for
,以便为每个 url 执行它。
contents = []
with open('c:\\users\\thegl\\documents\\datab.csv','r') as csvf: # Open file in read mode
urls = csv.reader(csvf)
for url in urls:
contents.append(url) # Add each url to list contents
for url in contents: # Parse through each url in the list.
page = urlopen(url[0]).read()
soup = BeautifulSoup(page, "html.parser")
for List in soup.find_all('ol',class_='breadcrumb'):
for listext in List.find_all('li'):
print(listext.text)
推荐阅读
- javascript - 我想要一个小的 javascript HTML 片段?
- c++ - Eigen 是否有修复非正定义协方差矩阵的解决方案
- python - Textract 不会读取希腊语中的 .doc 文件
- python - 尝试打印列表中的第二大数字
- aframe - aframe vr 模式投影矩阵
- python - TensorFlow KMeansClustering 在 CPU 而不是 GPU 上的训练
- android - Xamarin Android - 如何找到故障位置
- ios - AVPlayerLayer Popgesture 故障
- javascript - 将 chrome api 与 React.js 一起使用
- java - 如何在提醒应用上显示弹出通知?