首页 > 解决方案 > 使用 scikit-learn 训练模型时出现问题,shell 重新启动

问题描述

我正在从事一个涉及大量文本挖掘的项目(基于 DataCamp 课程“专家机器学习”中概述的步骤)。

我的管道中有一个“矢量化器”步骤来执行标记化。

('vectorizer', HashingVectorizer(token_pattern=TOKENS_ALPHANUMERIC,
                                 non_negative=True, 
                                 norm=None, 
                                 binary=False,
                                 ngram_range=(1, 2),
                                 n_features = 2 ** 18
                                )
)

虽然需要一段时间,但在考虑 1-gram 和 2-gram 时,上述步骤可以正常工作。我必须从默认值 2 ** 20 减少 n 特征才能使其工作。

作为下一步,我想考虑功能交互,因此我将此步骤添加到管道中。

('int', SparseInteractions(degree=2))

SparseInteractions 的代码可以在这里找到 https://github.com/drivendataorg/box-plots-sklearn/blob/master/src/features/SparseInteractions.py

问题是,过了一会儿,shell 重新启动,却没有任何迹象表明出了什么问题。似乎添加交互对于我的笔记本电脑来说太多了。有没有人对如何解决/解决这个问题有任何建议?

谢谢。

标签: pythonmachine-learningscikit-learn

解决方案


推荐阅读