首页 > 解决方案 > 如何为多个设备训练一个模型

问题描述

我有一些表格设备数据,包括

time column, some tabular features, target classes

所有设备数据中大约有 500 行(不相同),目标类相同。

我有大约 1000 台设备的相同数据,我想为所有设备训练一个通用模型来检测类。

有人可以帮助我训练目标变量的方法。什么样的模型在这种情况下工作

标签: machine-learningmodeltime-seriesprediction

解决方案


如果您的设备类型是数据的一部分,您可以训练决策树。如果设备类型特征对分类很重要,它将被添加到树中。首先,自己创建设备类型特征 - 每个设备类型的二进制列,就像在 one-hot 编码中完成的一样。每个设备类型都有一个二进制列 - is_device_samsung、is_device_lg、is_device_iphone 等等。创建的列数等于设备类型数。除了其中一列之外的所有列都将为 0,指示当前类型的列将为 1。这不能保证设备类型将成为模型的一部分 - 但让 AI 为您决定。顺便说一句 - 除非您知道如何在测试数据中完全按照需要重用它,否则不要使用 get_dummies。

另一种选择是使用 python-weka 包装器,它接受名义属性:

例子:

import weka.core.jvm as jvm
from weka.core.converters import Loader
from weka.classifiers import Classifier

def get_weka_prob(inst):
    dist = c.distribution_for_instance(inst)
    p = dist[next((i for i, x in enumerate(inst.class_attribute.values) if x == 'DONE'), -1)]
    return p

jvm.start()

loader = Loader(classname="weka.core.converters.CSVLoader")
data = loader.load_file(r'.\recs_csv\df.csv')
data.class_is_last()

datatst = loader.load_file(r'.\recs_csv\dftst.csv')
datatst.class_is_last()

c = Classifier("weka.classifiers.trees.J48", options=["-C", "0.1"])

c.build_classifier(data)
print(c)
probstst = [get_weka_prob(inst) for inst in datatst]

jvm.stop()

Weka 模型是使用 java 桥接 Python 的不同模型 - 方法是可以使用此桥接调用的 java 方法。要在 sklearn 中使用数据框 - 您必须使用 one-hot 编码对其进行操作。请注意,weka 中的名义属性中不能有任何特殊字符。所以用

df = df.replace([',', '"', "'", "%", ";"], '', regex=True) 

在将任何名义属性保存到 csv 之前。如果您想确保 model_type 功能将包含在您的模型中,您可以欺骗它并添加一个虚拟模型类型 - 并确保此虚拟模型的类列始终为“1”或“True”——取决于您的类变量。如果这个虚拟模型有足够的行 - j48 会将它作为第一个分支打开。一旦 j48 选择了属性 - 它将为所有模型类型分支,而不仅仅是虚拟模型类型。


推荐阅读