首页 > 解决方案 > 如何使用 Pandas 和 Scipy 查找数据框同一列中的两个分类变量之间的关系?

问题描述

我有一个带有“事件”列的数据框,其中包含三个变量,称为点击、网页浏览和预览。我想检查链接上的点击和预览之间是否存在关联?如果有,是否显着,影响有多大?我想测试两个变量之间潜在的线性和二元关系。

显示我的数据框列和条目的随机样本如下所示。 在此处输入图像描述

我使用 Pandas corr() 方法尝试了以下代码,但没有一个起作用。

pageviews = df.loc[df.event == 'pageview']
clicks = df.loc[df.event == 'click']
pageviews.corr(clicks)

运行此代码时收到以下错误消息:

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

当我在整个列上运行 corr() 方法时,如下所示:

df['event'].corr()

我收到以下错误消息

TypeError: corr() missing 1 required positional argument: 'other'

我的问题是,使用 Pandas 或 Scipy,我怎么可能检查事件列中的点击和浏览量类别之间是否存在相关性或关系,如上面的数据框所示?如果有的话,我如何测试关系的统计显着性?

标签: pythonpandasscipystatisticscorrelation

解决方案


推荐阅读