首页 > 解决方案 > 使用 NLTK 将句子标记为使用 pandas 的单词

问题描述

我正在尝试将 csv 文件中的句子标记为单词,但我的循环没有跳到下一个句子,它只是在做第一列。知道错误在哪里吗?这就是我的 CSV 文件的样子在此处输入图像描述

import re
import string
import pandas as pd
text=pd.read_csv("data.csv")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []

我得到的输出是这样的

在此处输入图像描述

我希望将所有句子作为一个循环而不只是一个循环。

标签: pythonpandasdataframenltk

解决方案


您只需要更改代码即可获取句子:

import re
import string
import pandas as pd
text=pd.read_csv("out157.txt", sep="|")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text['SENTENCES']]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []

推荐阅读