javascript - 计算某些键的值与平均值有多少标准偏差
问题描述
我正在处理Javascript / React
一组包含体育数据的对象。
这是我正在使用的数据的示例:
const mydata = [
{ name: "Tom", year: 2018, statA: 23.2, statB: 12.3 },
{ name: "Bob", year: 2018, statA: 13.2, statB: 10.1 },
{ name: "Joe", year: 2018, statA: 18.2, statB: 19.3 },
{ name: "Tim", year: 2018, statA: 21.1, statB: 21.3 },
{ name: "Jim", year: 2018, statA: 12.5, statB: 32.4 },
{ name: "Nik", year: 2017, statA: 23.6, statB: 23.8 },
{ name: "Tre", year: 2017, statA: 37.8, statB: 18.3 },
{ name: "Ton", year: 2017, statA: 15.3, statB: 12.1 },
{ name: "Bil", year: 2017, statA: 32.2, statB: 41.3 },
{ name: "Geo", year: 2017, statA: 21.5, statB: 39.8 }
];
我在这里的数据处理问题感觉非常具有挑战性,我很挣扎。我需要按年对数据中的几个键(statA、statB)中的每一个进行缩放(表示 0,stdev 1)。
例如,查看year === 2018
statA 列中的值,我们有 [23.2, 13.2, 18.2, 21.1, 12.5]。作为测试,将此向量插入 R 的 scale() 函数会得到以下结果:
scale(c(23.2, 13.2, 18.2, 21.1, 12.5))
[,1]
[1,] 1.1765253
[2,] -0.9395274
[3,] 0.1184989
[4,] 0.7321542
[5,] -1.0876511
attr(,"scaled:center")
[1] 17.64
attr(,"scaled:scale")
[1] 4.72578
...所以在我的原始对象数组中,第一个对象中的值 statA: 23.2 应更新为 1.1765,因为值 23.2 比 Year == 2018 的所有其他 statA 值的平均值高出 1.1765 个标准差。在我的完整的数据集,我有大约 8K 个对象和每个对象中的大约 50 个键,其中大约 40 个我需要逐年扩展。
在高层次上,我认为我必须(1st)计算每年每个统计数据的均值和 st dev,(2)使用该统计数据的均值和 st dev,并将其映射到其缩放值. 性能/速度对我的应用程序很重要,我担心普通的 for 循环会非常慢,尽管这是我目前正在尝试的。
对此的任何帮助表示赞赏!
编辑2:
在我阅读/结束代码之前,想发布我昨天完成的内容:
const scaleCols = ['statA', 'statB'];
const allYears = [...new Set(rawData.map(ps => ps.Year))];
// loop over each year of the data
for(var i = 0; i < allYears.length; i++) {
// compute sums and counts (for mean calc)
thisYearsArray = rawData.filter(d => d.Year === allYears[i])
sums = {}, counts = {};
for(var j = 0; j < thisYearsArray.length; j++) {
for(var k = 0; k < scaleCols.length; k++) {
if(!(scaleCols[k] in sums)) {
sums[scaleCols[k]] = 0;
counts[scaleCols[k]] = 0;
}
sums[scaleCols[k]] += thisYearsArray[j][scaleCols[k]];
counts[scaleCols[k]] += 1;
}
}
console.log('sums', sums)
console.log('counts', counts)
}
...就像我说的不太好。
编辑:使用 d3 的缩放功能对此有帮助吗?
解决方案
作为一名 D3 程序员,我很高兴看到另一个使用 D3 比例尺的答案(特别是因为该问题最初没有用d3.js标记)。但是,正如回答者已经暗示的那样,您不需要在这里使用 D3 比例尺,这有点过头了。
您只需要(value - mean) / deviation
:
var result = arr.map(d => (d - mean) / deviation);
这是演示:
var arr = [23.2, 13.2, 18.2, 21.1, 12.5];
var deviation = d3.deviation(arr)
var mean = d3.mean(arr)
var result = arr.map(d => (d - mean) / deviation);
console.log(result)
<script src="https://d3js.org/d3.v5.min.js"></script>
除此之外,还有两个考虑:
- “在高层次上,我认为我必须(第一次)计算每个统计数据的平均值和标准偏差,并且(第二次)使用该统计数据的平均值和标准偏差”:这是正确的,你不能在知道标准偏差和平均值之前,计算一个值与平均值的标准偏差有多少,你只能知道首先循环整个数组。因此,您不可能对数据数组进行少于 2 次的迭代。
- “性能/速度对我的应用程序很重要,我担心普通的 for 循环会非常慢”:现在情况有点不同,但直到最近,没有什么能比
for
性能方面的循环更好。所以,你所说的普通循环通常是最快的解决方案。
推荐阅读
- php - 在 foreach 循环中及时返回
- sql-server - 全文搜索条件“,”中“,”附近的语法错误
- python-3.x - 如何将画布保存在程序列表中,然后对其进行迭代以显示对象?
- c# - Visual Studio Windows 服务 c# exe 文件丢失
- python - 需要动态地从用户那里获取文件
- java - 如何防止从 Postman 调用 Rest WebService?
- python - 如何为循环创建动态范围?
- android - 为什么我无法将 firebase 电子邮件密码登录链接到 google 登录?
- react-native - 如何使用 apollo-hooks 为 react-native 创建实用程序
- jsf - javax.el.PropertyNotWritableException:可编辑 p:datatable 中的 java.lang.UnsupportedOperationException