python - 读取和写入标记化和 pos_tagged 单词到新文件
问题描述
我有一个包含新闻文章的 txt 文件(我认为它存储为列表),我想标记单词并标记它们并将它们保存到相应的文件中。
我使用 nltk 库来运行以下内容。
由于某种原因,代码运行但文件为空。如果我只跑
with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))
那么新文件将在新行上列出新闻文章的每个单词
使用下面的代码,我遇到tokenized = ' '.join(wt(tagged))
了一个错误的问题TypeError: expected string or bytes-like object
。我也尝试过str.join
,但无济于事
with open(news_file) as f1, open(token_file, "w") as f2, open(tagged_file, "w") as f3:
tagged = pos_tag(f1.readlines())
tokenized = ' '.join(word_tokenize(tagged))
for token_words in tokenized:
print(' '.join(token_words), file=f2)
for tag_words in tagged:
print(' '.join(tag_words), file=f3)
#f2.writelines(('\n'.join(wt(words)) for words in f1.readlines()))
任何帮助将不胜感激。
谢谢 :)
解决方案
推荐阅读
- avro - JDBC Kafka 连接器中的模式演变如何工作?
- json - 在 T-SQL 中通过 OpenJSON 遍历 JSON
- reactjs - 如何在 React Hooks 中正确管理订单数据的接收和 DOM 更新
- android - 使用 play-services-ads 添加 firebase 时出现重复的类构建错误
- java - 如何在处理中使用 for 循环输出多个图像?
- php - array() 函数内的 if() 函数
- flutter - 控制行内列的高度
- java - Java 中的 MATLAB 函数导致运行时错误 (EXCEPTION_ACCESS_VIOLATION)
- c++ - 使用程序生成创建磁盘但纹理无法正常工作
- ios - iPhone X/Xs Max AVCaptureVideoPreviewLayer 比例因子和 resizeAspectFill 模式下的坐标