python - 计算大型数据框的最佳方法?
问题描述
我正在尝试找到处理大约 8000 万行数据集的最佳方法。我需要对这些数据进行一些计算。我正在尝试for
循环,但需要永远。
我有如下数据(从一个地区到另一个地区的个人出租车行程,分辨率为 15 分钟):
timestamp, origin_area, destination_area
2014-01-27 11:00:00, 28.0, 32.0
2014-01-27 11:00:00, 28.0, 32.0
2013-01-01 01:00:00, 28.0, 1.0
2013-01-01 01:15:00, 28.0, 2.0
我需要将这些数据转换成这样的一些列:
timestamp, origin_area, destination_area,(该时间戳中不同起点-目的地对的行程总和),(该时间戳中来自起点区域的所有行程总和)
我有哪些选项可以快速处理这些计算并创建如上所述的其他列?
谢谢
解决方案
推荐阅读
- html - 在图像上叠加颜色后如何在文本上设置所需的颜色?
- sql - 如何创建一个主管引用另一个主管的表
- pine-script - Tradingview Pine 脚本中的用户可交互行
- javascript - Discord 欢迎留言 DM
- python-3.x - 在python中通过多个条件合并不同数量的行
- java - kafka 连接到 Google BigQuery 抛出错误 java.lang.NoClassDefFoundError: org/apache/kafka/common/config/ConfigDef$CaseInsensitiveValidString
- node.js - 从快速应用程序(后端)提供反应应用程序(前端)有什么好处
- android - 如何获得 SwipeRefreshLayout 的孩子?
- javascript - 如何循环遍历数组以使用 setInterval ES5 显示图像
- python - 试图将多行分类变量转换为具有虚拟变量列的单行