python - 使用 NLTK 将句子标记为使用 pandas 的单词
问题描述
我正在尝试将 csv 文件中的句子标记为单词,但我的循环没有跳到下一个句子,它只是在做第一列。知道错误在哪里吗?这就是我的 CSV 文件的样子
import re
import string
import pandas as pd
text=pd.read_csv("data.csv")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []
我得到的输出是这样的
我希望将所有句子作为一个循环而不只是一个循环。
解决方案
您只需要更改代码即可获取句子:
import re
import string
import pandas as pd
text=pd.read_csv("out157.txt", sep="|")
from nltk.tokenize import word_tokenize
tokenized_docs=[word_tokenize(doc) for doc in text['SENTENCES']]
x=re.compile('[%s]' % re.escape(string.punctuation))
tokenized_docs_no_punctuation = []
推荐阅读
- javascript - 为什么我的数组没有填充到 HTTP 请求回调函数中?
- python - 为什么 tesseract 检测不到这个字母?
- azure - 基于客户 ID 的 Azure 服务总线队列分区
- set - 理解嵌套循环创建集合
- python - 从另一个 DataFrame 将列添加到 Pyspark DataFrame
- list - prolog 中的有效括号列表
- ubuntu - 在 ubuntu 20.04 中使用 make 命令时出错
- python - pip install gspread 安装到 python 而不是 py
- mysql - 将 MySQL 表行旋转到列
- php - 使此函数在数组上递归