首页 > 解决方案 > 在机器学习中多次使用相同的输入(输出不同)是否可以接受?

问题描述

我想知道在机器学习中是否可以接受一个数据集可能包含多次相同的输入,但每次都有另一个(有效!)输出。例如,在机器翻译的情况下,输入句子但每次都给出不同的翻译。

一方面我会说这绝对是可以接受的,因为输出的差异可能更好地模拟小的潜在特征,从而导致模型更好的泛化能力。另一方面,我担心多次使用相同的输入会使模型偏向于给定的输入——这意味着第一层(在深度神经网络中)可能在这个输入上“过度拟合”。具体来说,当在测试集中多次看到相同的输入但在训练集中从未出现过时,这可能会很棘手,反之亦然。

标签: machine-learningdata-partitioningmachine-translation

解决方案


一般来说,你可以做任何有效的事情,这个“任何有效的”也是回答你问题的关键。您需要做的第一件事是定义性能指标。如果要学习的函数定义为X |-> Y其中 X 是源语句,Y 是目标语句,则性能度量是一个函数f((x,y)) -> |R,反过来可以用来定义必须由神经网络优化的损失函数。

为简单起见,我们假设您使用准确度,即完美匹配句子的比例。如果你有相互冲突的例子(x,y1)(x,y2)那么你就不能再达到 100% 的准确率,这感觉很奇怪,但不会造成任何伤害。另一个很酷且重要的事实是,根据定义,每个句子只能正确匹配一次——假设你的 NN 预测中没有随机分量。这意味着具有更多替代翻译的句子在构建模型中的权重不会更高。优点是这种方法可能会导致更好的泛化。不利的一面是,这种方法可能会导致优化失败,从而导致模型陷入最佳选择之间。

一种更简洁的方法是考虑在您的绩效衡量/损失的定义中存在替代翻译这一事实。您可以将性能指标定义为

\frac{1}{|D|}\sum{(x,[y_1,..,y_n])\in D 1I_{f(x)\in[y_1,...y_n]}

其中 1I 是指标函数。

这将提供一个更清晰的指标。显然,您需要对目标指标采用上述推导


推荐阅读