首页 > 解决方案 > 可以在 Python 中并行化同一数据集上的多个 100k 套索回归吗?

问题描述

嗨,我目前在尝试对同一数据运行大量 Lasso 回归时遇到问题。我有一个包含多个 100k 行和 365 列的数据集(一年的数据)。我需要做的是根据所有其他行拟合和预测每行的一个套索回归,以便我最终得到与行一样多的单个回归。

我很难找到一种循环以外的方法来以一种相当高效的方式执行它。我尝试尝试使用 Python 的 joblib 包,它提高了性能,但如果有的话,我仍在寻找更快的方法。我也试图找到一种方法来矢量化这个问题,但我没有找到解决方案。我还浏览了 keras 以将 Lasso 回归实现为人工神经网络。

我很难想象为特定任务拟合大量简单模型是不常见的。所以我的问题是:减少此问题陈述执行时间的最佳方法是什么?据我了解,这个问题无法通过使用 GPU 来优化,因为需要安装许多单独的模型,因此无论如何 CPU 都将成为瓶颈。

顺便说一句:我可以使用 GPU,并且我有一个 16 核的 CPU。

标签: pythonperformancemachine-learningparallel-processingregression

解决方案


推荐阅读