python - Keras Tokenizer.texts_to_sequences 返回列表列表而不是 np.array
问题描述
我正在为 IMDB 电影评论数据集构建情感分类器,并使用带有 Keras 的 LSTM 层。问题是我无法获得神经网络的正确输入类型(又名。numpy array
)
这就是我正在做的
xtrain,xtest,ytrain,ytest = model_selection.train_test_split(reviews,review_sent,test_size=0.2,stratify=review_sent)
t = Tokenizer(oov_token=0)
t.fit_on_texts(texts=xtrain)
train_seq = t.texts_to_sequences(xtrain)
test_seq = t.texts_to_sequences(xtest)
type(train_seq)
#returns 'list' of len(xtrain)
其中评论是评论的字符串,review_sent是一个二进制变量(目标)
列表的每个元素也是一个列表,数字序列代表评论。我在将其转换为时遇到了很多麻烦,np.array
因此我可以执行填充并最终得到它,xtrain_padded.shape = (n_train_samples, sequence_lenght)
因此它可以成为 keras 模型的输入。
如果有人可以详细说明如何执行此操作,那将非常有帮助。
提前致谢
解决方案
推荐阅读
- apache-spark - 运行总和/累积总和与地板和天花板 Py Spark
- scala - 如何在火花中将数据集 [行] 保存为文本文件?
- python - 使用 Numpy Array 遍历 .txt 文件中的时间序列数据
- maven - 运行 wildfly:run 目标后,有没有办法使用 maven build 进行处理?
- php - Polylang 翻译网址 slug 无法正常工作
- python - 如何将嵌套字典列表转换为 pandas 数据框?
- python - 如何在熊猫中滚动非重叠窗口
- c# - 避免对具有可为空类型/字段的泛型发出警告的最佳方法?
- c++ - 循环内的局部对象的析构函数是否保证在下一次迭代之前被调用?
- amazon-web-services - EKS / AWS 中的 Hazelcast 主节点选举是可能的吗?