python - 我如何爬取准备好的 url 列表
问题描述
我要使用 python 爬网 将 url 信息保存为 csv 或 txt 我想在代码中加载时逐页爬网 我该怎么做
import urllib.request
from bs4 import BeautifulSoup
import pandas as pd
with open('crawlingweb.csv') as f:
content=f.readlines()
content=[x.strip() for x in content]
url='#I want to bring url from csv or txt file'
html=urllib.request.urlopen(url).read()
soup=BeautifulSoup(html,'lxml')
text=soup.get_text()
print(text)
解决方案
import urllib.request
from bs4 import BeautifulSoup
import pandas as pd
with open('crawlingweb.csv') as f:
content=f.readlines()
content=[x.strip() for x in content]
for i in range(10):
url=content[i]
html=urllib.request.urlopen(url).read()
soup=BeautifulSoup(html,'lxml')
text=soup.get_text()
print(text)
推荐阅读
- linux - 具有延迟线程的多线程应用程序的 stdout/stderr 的 QProcess 输出
- search - 在大文件中搜索特殊字符
- javascript - JS ES6 如何通过自己的模板对数组进行排序?
- c - 临时指针:正确的 malloc 和 free
- javascript - 保证将 AWS Lambda 函数限制在指定的预算范围内
- angular - 在 Nativescript Angular 中向数组添加值时出现未定义的错误
- javascript - scala.js 的字符串插值,如 java.text.MessageFormat
- azure - Azure SSIS 中的 C# 脚本源 Microsoft.Sharepoint.Client 程序集
- java - Liquibase maven 插件 - 设置日志记录级别
- javascript - cytoscape.js 的径向树布局?