首页 > 技术文章 > [Python] Pandas 中 Series 和 DataFrame 的用法笔记

feily 2021-02-10 17:02 原文


pandas模块中有两个重要的数据结构对象:Series和DataFrame。
使用这两个数据结构对象可以在计算机的内存中构建虚拟的数据库。

1. Series对象

Series是一种类似于NumPy模块创建的一维数组的对象,与一维数组不同的是,Series对象不仅包含数据元素,还包含一组与数据元素对应的行标签。

>>> import pandas as pd
>>> s = pd.Series(['短裤', '毛衣', '连衣裙', '牛仔裤'])
>>> print(s)
0     短裤
1     毛衣
2    连衣裙
3    牛仔裤
dtype: object
>>> s[2]
'连衣裙'

自定义元素的行标签

>>> s1 = pd.Series(['短裤', '毛衣', '连衣裙', '牛仔裤'], index = ['a001', 'a002', 'a003', 'a004'])
>>> s1[2]
'连衣裙'
>>> s1['a002']
'毛衣'

使用Series对象定义基于字典创建数据结构

>>> s2 = pd.Series({'a001':'短裤', 'a002':'毛衣', 'a003':'连衣裙', 'a004':'牛仔裤'})
>>> print(s2)
a001     短裤
a002     毛衣
a003    连衣裙
a004    牛仔裤
dtype: object

2. DataFrame对象

DataFrame是一种二维的数据结构对象,用该对象创建的数据结构在形式上类似于Excel表格。相比Series对象,DataFrame对象在实际工作中的应用更为广泛。

>>> df = pd.DataFrame([['短裤', 45], ['毛衣', 69], ['连衣裙', 119], ['牛仔裤', 99]])
>>> print(df)
     0    1
0   短裤   45
1   毛衣   69
2  连衣裙  119
3  牛仔裤   99

自定义行标签和列标签

>>> df1 = pd.DataFrame([['短裤', 45], ['毛衣', 69], ['连衣裙', 119], ['牛仔裤', 99]], columns = ['产品', '单价'], index = ['a001', 'a002', 'a003', 'a004'])
>>> print(df1)
       产品   单价
a001   短裤   45
a002   毛衣   69
a003  连衣裙  119
a004  牛仔裤   99

使用DataFrame对象可以基于字典创建数据结构

>>> df2 = pd.DataFrame({'产品':['短裤', '毛衣', '连衣裙', '牛仔裤'],'单价':[45, 69, 119, 99]})
>>> print(df2)
    产品   单价
0   短裤   45
1   毛衣   69
2  连衣裙  119
3  牛仔裤   99
>>> df3 = pd.DataFrame({'产品':['短裤', '毛衣', '连衣裙', '牛仔裤'],'单价':[45, 69, 119, 99]}, index = ['a001', 'a002', 'a003', 'a004'])
>>> print(df3)
       产品   单价
a001   短裤   45
a002   毛衣   69
a003  连衣裙  119
a004  牛仔裤   99

推荐阅读