首页 > 解决方案 > 评估基于标准偏差产生噪声的想法

问题描述

我使用这种方法生成合成数据集:

import numpy as np
import random

def generate_dataset(size, dim):

    dataset = [random.randint(0, 2 ** dim) for _ in range(size)]

    # Removes duplicates
    dataset = list(set(dataset))

    return dataset

如您所见,数据点是从 随机生成的[0 - 2^dim]。对于这种方法生成的任何数据集,我想给它添加噪音。现在,我正在考虑一种简单的方法,但我不确定它是否在逻辑上正确,所以这里是:

  1. 从生成的数据集中找出数据点的标准差。
  2. 生成不在此标准偏差内的新数据点。
  3. 将它们添加到您的原始数据集中,然后随机播放。

这是产生噪音的方式吗?

谢谢你。

标签: statisticsdata-sciencenoise

解决方案


似乎您正在创建异常值。对我来说,噪音更像是在数据点上添加一个小数字(+/- 数字)。例如,你今天走了多少步?它可能是 100,但某些跟踪设备可能会读取 95 或 110。差异就是噪音。

不确定这是否有帮助。


推荐阅读