statistics - 评估基于标准偏差产生噪声的想法
问题描述
我使用这种方法生成合成数据集:
import numpy as np
import random
def generate_dataset(size, dim):
dataset = [random.randint(0, 2 ** dim) for _ in range(size)]
# Removes duplicates
dataset = list(set(dataset))
return dataset
如您所见,数据点是从 随机生成的[0 - 2^dim]
。对于这种方法生成的任何数据集,我想给它添加噪音。现在,我正在考虑一种简单的方法,但我不确定它是否在逻辑上正确,所以这里是:
- 从生成的数据集中找出数据点的标准差。
- 生成不在此标准偏差内的新数据点。
- 将它们添加到您的原始数据集中,然后随机播放。
这是产生噪音的方式吗?
谢谢你。
解决方案
似乎您正在创建异常值。对我来说,噪音更像是在数据点上添加一个小数字(+/- 数字)。例如,你今天走了多少步?它可能是 100,但某些跟踪设备可能会读取 95 或 110。差异就是噪音。
不确定这是否有帮助。
推荐阅读
- c# - Swagger:无法加载 API 定义
- json - 使用 JSON-B 1.0(例如 Yasson、Java EE 8)有效地将 JsonObject 转换为 pojo
- python - /dashboard/ 'NoneType' 对象的 AttributeError 没有属性 'year'
- python - 运行“python setup.py”以将包安装为站点包,但 python 正在压缩 egg 文件夹中的所有内容
- vb.net - 对象引用在执行时未设置为对象的实例
- java - 在 IntelliJ 的资源文件夹中创建包
- partial-views - 在 JsonResult 中返回 PartialView
- java - 依赖于 bootRun 的 Gradle 任务
- mongodb - 尝试运行 mongorestore 并且无法连接?
- react-native - 在 React Native 中导航到未使用 createBottomTabNavigator 定义的屏幕