python - 如何将数据部分拟合到机器学习模型中?
问题描述
我正在研究文本分类问题。我有大量数据,当我尝试将数据放入机器学习模型时,它会导致内存错误。有什么方法可以让我部分地拟合数据以避免内存错误。
附加信息
- 我正在使用线性SVC 模型。
- 我有 110 万行的训练数据。
- 我使用 tfidf 对文本数据进行了矢量化处理。
- 必须适合模型的矢量化数据(1121063、4235687)的形状。
或者有没有其他方法可以解决这个问题。不幸的是,我没有任何可重现的代码。
提前致谢。
解决方案
简单的答案是不要使用我假设的 scikit-learn 实现,linearSVC
而是使用一些允许批量训练的算法/实现。其中最常见的是神经网络,但也存在其他几种算法。使用允许您批量安装分类scikit-learn
器的方法寻找分类器。partial_fit
参见例如这个列表
推荐阅读
- python - 为熊猫中的单个值创建单独的列
- sql - 根据 Bigquery 计划查询中的日期动态更改 FROM 表名
- reactjs - 在 React Hooks 中输入文本时,antd Select Option 不呈现
- blazor-webassembly - Blazor WASM TargetFrameworks 网络标准 2.1 和 net5.0
- javascript - 单击按钮时切换脚本执行
- android - 无法加载 github.com 的信息
- assembly - 二叉搜索树插入程序集 x86
- css - @media 查询中的 CSS 字体大小在旋转后不会变回
- javascript - 谷歌表格隐藏网址
- configuration - 这个“编辑小部件”视图(适用于 iOS 14 小部件)的名称是什么?我该如何定义这样的东西?