python - 预期的字符串或类似字节的对象-亚马逊数据集
问题描述
我正在研究一个亚马逊数据集来执行 LSTM。代码如下:
def data_clean( rev, remove_stopwords=True):
new_text = re.sub("[^a-zA-Z]"," ", rev)
words = new_text.lower().split()
if remove_stopwords:
sts = set(stopwords.words("english"))
words = [w for w in words if not w in sts]
return words
ary=[]
eng_stemmer = english_stemmer
for word in words:
ary.append(eng_stemmer.stem(word))
return ary
但是,一旦我运行 clean _reviewData 和 clean_summarydata,它就会返回如下错误。
有人可以帮我更正代码吗?
解决方案
您没有正确格式化代码,但我希望您有功能
def data_clean( rev, remove_stopwords=True):
new_text = re.sub("[^a-zA-Z]"," ", rev)
words = new_text.lower().split()
if remove_stopwords:
sts = set(stopwords.words("english"))
words = [w for w in words if not w in sts]
最后你忘记return words
了 - 所以它运行return None
,然后" ".join(data_clean(rev))
给你" ".join(None)
,这给了错误expected string or bytes-like object
。因为None
不是string or bytes-like object
。
你需要
def data_clean( rev, remove_stopwords=True):
new_text = re.sub("[^a-zA-Z]"," ", rev)
words = new_text.lower().split()
if remove_stopwords:
sts = set(stopwords.words("english"))
words = [w for w in words if not w in sts]
return words
推荐阅读
- c# - 在 Visual Studio Code 中,是否可以在编辑 C# 代码时延迟显示内联错误,也许直到我保存文件?
- python - 多变量曲线拟合
- python - 将ndarray转换为熊猫数据框
- php - 为什么根据 dd() 正确更改变量时返回 null 的值?
- c++ - 将具有条件要求的概念形式化
- python - Django 用户注册认证问题
- typescript - 如何在 d3.js 中为上下文菜单的创建和删除添加过渡?
- c# - 为什么对象的值会发生变化,即使它有不同的引用?
- c# - 根据规范监听事件并调用回调?
- oracle - 在 SQL 查询的最后一行显示最后一列的平均值