首页 > 解决方案 > 读取和写入标记化和 pos_tagged 单词到新文件

问题描述

我有一个包含新闻文章的 txt 文件(我认为它存储为列表),我想标记单词并标记它们并将它们保存到相应的文件中。

我使用 nltk 库来运行以下内容。

由于某种原因,代码运行但文件为空。如果我只跑

with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
 f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))

那么新文件将在新行上列出新闻文章的每个单词

使用下面的代码,我遇到tokenized = ' '.join(wt(tagged))了一个错误的问题TypeError: expected string or bytes-like object。我也尝试过str.join,但无济于事

with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
    tagged = pos_tag(f1.readlines())
    tokenized = ' '.join(word_tokenize(tagged))
    for token_words in tokenized:
        print(' '.join(token_words), file=f2)
    for tag_words in tagged:
        print(' '.join(tag_words), file=f3)
#f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))

任何帮助将不胜感激。

谢谢 :)

标签: pythonnltk

解决方案


推荐阅读