首页 > 解决方案 > 如何使用第二列的数据获取数据框的一列的统计信息?

问题描述

我正在尝试编写一个程序来更深入地分析股票交易数据,但我遇到了困难。我在给定的时间范围内提取所有交易并创建一个新的 CSV 文件,以便将该文件用作预测神经网络的输入。

我目前拥有的数据框具有三个值:(1)股票价格;(2) 以该价格出售的股份数量;(3) 该特定交易的 unix 时间戳。我无法对数据进行任何准确的统计分析。例如,如果我使用 .median(),程序只查看列出的值的数量,而不是每个值可能已经根据交易量列交易了数百次的事实。

例如,这是我试图分析的一只股票的部分交易历史。

 0   227.60   40  1570699811183

 1   227.40   27  1570699821641

 2   227.59   50  1570699919891

 3   227.60   10  1570699919891

 4   227.36  100  1570699967691

 5   227.35  150  1570699967691 . . .

为了更好地理解这个问题,我还按价格对其进行了分组,并将其他列与groupby('p').sum().我意识到这意味着时间戳是无用的,但它使可视化更容易。

 227.22     2   1570700275307

 227.23   100   1570699972526

 227.25   100   4712101657427

 227.30   105   4712101371199

 227.33    50   1570700574172

 227.35  4008  40838209836171 . . .

有什么方法可以使用交易量列的数字对价格列进行统计分析?我考虑过创建一个新的数据框,其中列出了每个价格的交易次数,但不知道该怎么做。

提前感谢您的帮助!

标签: pythonpandasdataframestatistics

解决方案


推荐阅读