python - 如何从 Python 中的 .txt 文件打印单个列表?
问题描述
我有一个大文本文件,我想将其转换为单词列表。我已经能够为文件中的每一行获取一个列表,但我想要一个列表。
这就是我所拥有的。
import unicodedata
import codecs
infile = codecs.open('FILE.txt', 'r', encoding ='ascii', errors = 'ignore')
outfile = codecs.open('FILE2.txt', 'w', encoding ='ascii', errors = 'ignore')
for word in infile:
mylist = str(word.split())
outfile.write(mylist)
infile.close()
outfile.close()
这给了我一个看起来像这样的输出文件:
[word, word][word, word, word, word][word, word]...[word,word]
我希望得到一个看起来像这样的outfile:
[word, word, word, .... word, word, word]
我知道如何连接多个列表,但这些列表会立即写入我的输出文件。如所写,我的代码不允许我在事后连接列表。
更新:
感谢您的所有帮助。我已经解决了以下问题:
import unicodedata
import codecs
infile = codecs.open('FILE1.txt', 'r', encoding ='ascii', errors = 'ignore')
outfile = codecs.open('FILE2.txt', 'w', encoding ='ascii', errors = 'ignore')
mylist =[]
for line in infile:
for word in line.split():
mylist.append(word)
outfile.write(str(mylist))
infile.close()
outfile.close()
解决方案
from nltk.tokenize import word_tokenize,sent_tokenize
list_sentence=[]
test_text_file=open('xyz.txt', 'rt')
test_text_file1=test_text_file.read()
for s in word_tokenize(test_text_file1):
list_sentence.append(s)
print list_sentence
这会给你一个单词列表
推荐阅读
- hive - 小数点后的 Hive 数字
- azure-devops - Azure DevOps 分支策略:如何解决从 id 到用户的必需审查?
- python - python3.x importing gi... gi包的路径
- python - 如何在 Keras 中为多个序列 LSTM 准备输入数据?
- python - Tesseract OCR - 指定模式
- scala - 隐式添加到集合
- recaptcha - 如何强制 Google reCaptcha 显示挑战图像?
- python - Python在Windows中更改目录
- batch-file - 通过批处理文件比较两个文件夹的内容而不是两个文件的内容
- angular6 - 无法在 Reactive Forms 角度 6 中获取值 select2 多项选择