python - sklearn / CountVectorizer : 适合然后变换不同的输入语料库
问题描述
我正在使用 sklearn python lib 中的 CountVectorizer从文件中对语料库进行矢量化,并带有input='filename'
初始化 CountVectorizer 的选项
from sklearn.feature_extraction.text import CountVectorizer
corpus1=['file_name1','file_name2',...]
count_vectorizer = CountVectorizer(input='filename')
MAT1 = count_vectorizer.fit_transform(corpus1)
然后我需要使用模型来转换一个新的语料库但是在 numpy.array(['str1','str2'])
corpus2 = numpy.array(['str1','str2'])
# ideally
MAT2 = count_vectorizer(input='content').transform(corpus2)
这通常可以在 CountVectorizer 初始化时完成,input='content'
但我不知道如何指定一种新的输入类型。
有什么想法或解决方法吗?
谢谢 !
解决方案
一个简单的解决方法可能是将列表中的每个项目写入单独的文件中,然后将文件名列表传递给 CountVectorizer 对象。
推荐阅读
- javascript - 在 Angular 4+ 中插入数据的最佳方法
- dask-distributed - 如何将任务分配给 Dask.Distributed 中的特定工作人员
- maven - Maven 测试不与外部 Jar 一起运行
- tensorflow - 了解检测 API 配置文件
- apache-spark - 无法访问通过 Google dataproc 集群上的 Airflow 提交的 PySpark 作业中的环境变量
- r - 在 R 中使用遗传算法进行逐步种群评估
- sql-server - 加入时将一列中的值汇总到不同表的一行中
- kubernetes - 更新图像标签以通过 CloudBuilder 提交 SHA 的最佳方法是什么?
- cucumber - 在黄瓜功能文件中使用“*”关键字的正确方法是什么
- ssh - Jmeter SSH采样器无法建立套接字错误