首页 > 解决方案 > 为什么 pd.unique() 比 np.unique() 快?

问题描述

我试图比较两者,一个是pandas.unique(),另一个是numpy.unique(),我发现后者实际上超过了第一个。
我不确定阁下是否是线性的。

关于代码实现,谁能告诉我为什么存在这样的差异?在什么情况下我应该使用哪个?

标签: pythonpandasnumpydata-sciencedata-analysis

解决方案


np.unique() 将数据视为一个数组,因此它单独遍历每个值,然后识别唯一字段。

然而,pandas 具有包含此信息的预构建元数据,而 pd.unique() 只是调用包含“唯一”信息的元数据,因此不必再次计算它。


推荐阅读