首页 > 解决方案 > 如何从 url 列表中提取文本并分别保存

问题描述

我有一个网址列表。该列表中有 100 个 url,所有这些 url 都包含文本。我想从这些 url 中提取文本并将这些文本保存在 text1、text2、text3 等中。我只能做到这一点。

list_of_urls = ['abc.com', 'def.com', 'sssj.com', ... and so on]
import urllib

text = []
data = urllib.request.urlopen('abc.com')
for line in data:
    line = line.decode('utf-8')
    text.append(line)

以上代码仅适用于一个网址。但我想遍历列表中的所有 url 并将输出存储在 text1、text2、text3 等中。

标签: pythonlistbeautifulsoupurllib

解决方案


我不确定您希望如何存储单独的文本,但此代码将创建一个字典,其中键是 text1、text2、...,值是包含该文本中句子的列表。

import urllib
list_of_urls = ['abc.com', 'def.com', 'sssj.com', ... and so on]

result = {}
for idx, url in enumerate(list_of_urls):
    data = urllib.request.urlopen(url)
    text = []
    for line in data:
        line = line.decode('utf-8')
        text.append(line)
        
    result[f"text{idx}"] = text

推荐阅读