python - 通过从报纸上收集文本重新输入代码时,除了第一个链接之外,所有内容都被忽略了
问题描述
我需要从多个 URL 收集文章的文本。输入后代码功能完美。但是,通过重新输入 print(first_article.text) 以将输出导出为 CSV,只会出现第一篇文章。发生这种情况是否有原因?如何从所有文件中导出文本?
import newspaper
from newspaper import Article
lista = ['url','url']
for list in lista:
first_article = Article(url="%s" % list, language='en')
first_article.download()
first_article.parse()
print(first_article.text)
#This prints all articles
print(first_article)
#This prints only one
解决方案
我想我看到了问题。您想获取文章列表。您可以通过附加列表来实现此目的:
lista = ['url','url']
articles = [] #initialize a list
for list in lista:
first_article = Article(url="%s" % list, language='en')
first_article.download()
first_article.parse()
articles += [first_article.text] # Add article to list
print(first_article.text)
print(articles) #Print all articles
推荐阅读
- c++ - 释放 PyBind11 中的 GIL 以在 Python 中使用 OpenMP 进行多线程
- localization - Web 应用程序全球化/本地化工具的选项?
- java - 我可以使用通过 ajax 传递的值来使用准备好的语句进行数据库搜索吗?
- python - 尝试解析电子邮件的 html 时,“不能在像对象这样的字节上使用字符串模式”
- recaptcha - 在没有 php 的情况下在 Github 页面上实现 recaptcha?
- docker-compose - docker-compose down 不会..“关闭”容器
- haskell - 为以 char 开头的字符串创建一个布尔值以返回 true,而后续值可以是 char 数字或下划线
- android - Kotlin WebView - 防止在新的 Chrome 浏览器窗口中打开
- python - 如何将破折号输入保存为全局变量
- python - 如果通过 process.crawl() 运行,Scrapy CrawlSpider 不会执行 LinkExtractor