python - 使用 toarray() 方法显示内存错误
问题描述
xtrain,xtest,ytrain,ytest = train_test_split(df_train['clean_comments'],df_train['label'].values,test_size=0.3,shuffle = True)
vectorizer = TfidfVectorizer(strip_accents='unicode',analyzer='word',ngram_range=(1,3),norm='l2')
vectorizer.fit(xtrain)
x_train = vectorizer.transform(xtrain)
x_train = x_train.toarray()
我正在尝试使用 toarray() 方法将稀疏数组转换为密集数组,但它显示内存错误。我已经尝试过 todense() 方法,但也没有用。
解决方案
稀疏矩阵仅用于在内存中存储与零不同的值,因此非常适合词袋矩阵。如果您尝试将稀疏矩阵转换为密集格式,则会消耗更多内存,因为它还存储零。如果您没有足够的内存,则会引发内存不足错误。
推荐阅读
- excel - Excel:基于下拉的 Vlookup
- unit-testing - 模拟 DbQuery 以从单元测试中使用 FromSql
- python - 如何炸开多列、不同类型、不同长度?
- html - 孩子的 !important 被父母的属性忽略
- python - 将张量作为输入传递给 Keras api 功能模型
- python - 如何从函数内部访问变量
- c - samba 共享的 Linux fopen() 语法
- python - python - 如何将具有多个不同长度值的嵌套列表转换为python中的pandas数据框?
- python-3.x - 如何更改 skimage.io.imsave 中的文件夹位置?
- amazon-web-services - 如何为 Cloudformation 创建基于堆栈状态的 IAM 策略?