首页 > 解决方案 > 无法为大型数据集运行选择性 pandas 分析

问题描述

我有一个包含 100 列和 100000 行的大型数据集,我正在尝试运行 pandas 配置文件报告,但它会生成一个非常大的文件 html 文件(300MB)。无法在任何浏览器上打开该文件。

所以我尝试了 minimum=True 但这只是提供交互。

我可以运行选择性熊猫分析报告以仅查看交互报告或仅查看缺少 _values 报告吗

我试过这个但遇到了错误

ProfileReport(df,variables=False,Interactions=True, Correlations=False, Missing_values=False, Sample=False)

标签: pythonpandas-profiling

解决方案


通过调整配置可以有多种可能的改进:

  • 绘制与 100 列的交互会生成 100 x 100 = 10.000 个图。您可以通过指定目标将其缩小到您感兴趣的目标(请参阅文档)
  • ProfileReport(df,variables=False,Interactions=True, Correlations=False, Missing_values=False, Sample=False)不是正确的语法(请不要使用大写,使用None代替 False,请参阅此页面)。

推荐阅读