statistics - Julia - describe() 函数显示不完整的汇总统计信息
问题描述
我正在尝试使用 Julia 进行基本数据分析
我正在使用可以在此处找到的火车数据集(名为)使用以下代码来学习本教程:train_u6lujuX_CVtuZ9i.csv
using DataFrames, RDatasets, CSV, StatsBase
train = CSV.read("/Path/to/train_u6lujuX_CVtuZ9i.csv");
describe(train[:LoanAmount])
并得到这个输出:
Summary Stats:
Length: 614
Type: Union{Missing, Int64}
Number Unique: 204
而不是教程的输出:
Summary Stats:
Mean: 146.412162
Minimum: 9.000000
1st Quartile: 100.000000
Median: 128.000000
3rd Quartile: 168.000000
Maximum: 700.000000
Length: 592
Type: Int64
% Missing: 3.583062
这也对应于函数应该给出的StatsBase.jl的输出describe()
解决方案
这就是当前(在当前版本中)在 StatsBase.jl 中实现的方式。简而言之train.LoanAmount
,它没有eltype
那个子类型,Real
然后 StatsBase.jl 使用一种仅打印长度、eltype 和唯一值数量的后备方法。您可以编写describe(collect(skipmissing(train.LoanAmount)))
以获取摘要统计信息(当然缺失的数量除外)。
但是,实际上,我建议您使用另一种方法。如果您想在单个列上获得更详细的输出,请使用:
describe(train, :all, cols=:LoanAmount)
您将获得一个另外作为 a 返回的输出,DataFrame
这样您不仅可以查看统计信息,还可以访问它们。
选项:all
将打印所有统计信息,请参阅describe
DataFrames.jl 中的文档字符串以查看可用选项。
您可以在此处找到在当前版本的 DataFrames.jl 上使用此函数的一些示例。
推荐阅读
- python - Python 初学者。范围,排除特定数字
- django - 反向 url 问题:模板 url 给出反向错误
- c - openmp for 循环未并行化
- python - 如何在 TensorFlow 2 上通过 Eager Execution 调试内存不足问题?
- c# - 在 C# 中由多个线程调用的内部方法创建的数据表是否需要锁定?
- java - 使用jackson反序列化xml时未初始化Java静态变量
- python - 在 Pygame 中的 moderngl 上下文中绘制对象
- r - 在 data.table 中使用非等值连接滚动条件中位数
- git - 如何修复我的本地存储库,以便我可以从尚未推送到主 git 存储库的提交中保存工作?
- php - Laravel 条件查询