python - 为什么 pd.unique() 比 np.unique() 快?
问题描述
我试图比较两者,一个是pandas.unique()
,另一个是numpy.unique()
,我发现后者实际上超过了第一个。
我不确定阁下是否是线性的。
关于代码实现,谁能告诉我为什么存在这样的差异?在什么情况下我应该使用哪个?
解决方案
np.unique() 将数据视为一个数组,因此它单独遍历每个值,然后识别唯一字段。
然而,pandas 具有包含此信息的预构建元数据,而 pd.unique() 只是调用包含“唯一”信息的元数据,因此不必再次计算它。
推荐阅读
- excel - 在 VBA 数组的 255 个字符限制上欺骗 Excel
- php - 如何从 Android 向 PHP 发出 post 请求?
- javascript - HTML 代码被放置为文本而不是呈现 - 更新
- mysql - 从 Pyspark 加载到 Mysql 时忽略错误
- sql-server - T-SQL 存储过程已停止返回从 URL 检索的值
- scala - 从 neo4j 获取数据
- java - 如果套接字在 thrad 中没有错误地关闭,我如何停止从输入流中读取?
- windows - 删除工作区文件夹后 Perforce (P4V) 未打开
- wordpress - 使 Wordpress 自定义侧边栏仅对特定客户角色可见?
- javascript - for循环中的if/else语句