首页 > 解决方案 > 如何将数据部分拟合到机器学习模型中?

问题描述

我正在研究文本分类问题。我有大量数据,当我尝试将数据放入机器学习模型时,它会导致内存错误。有什么方法可以让我部分地拟合数据以避免内存错误。

附加信息

  1. 我正在使用线性SVC 模型。
  2. 我有 110 万行的训练数据。
  3. 我使用 tfidf 对文本数据进行了矢量化处理。
  4. 必须适合模型的矢量化数据(1121063、4235687)的形状。

或者有没有其他方法可以解决这个问题。不幸的是,我没有任何可重现的代码。

提前致谢。

标签: pythonmachine-learning

解决方案


简单的答案是不要使用我假设的 scikit-learn 实现,linearSVC而是使用一些允许批量训练的算法/实现。其中最常见的是神经网络,但也存在其他几种算法。使用允许您批量安装分类scikit-learn器的方法寻找分类器。partial_fit参见例如这个列表


推荐阅读