首页 > 解决方案 > 如何在 Jupyter notebook 中使用 pandas 修改 CSV 格式数据?

问题描述

我正在使用 pandas 在 Jupyter Notebook 中将 CSV 文件读入名为“data”的变量中


import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt data = pd.read_csv("C:/Users/hp/Desktop/dv project/googleplaystorecleaned.csv")


我尝试使用以下代码修改数据集的“大小”列以删除字符“M”和“k”

for i in range(len(data['Size'])):
    data['Size'][i]=str(data['Size'][i])
    data['Size'][i]=data['Size'][i].replace('M','')
    data['Size'][i]=data['Size'][i].replace('k','')
    data['Size'][i]=data['Size'][i].replace('Varies with device','')
    data['Size'][i]=float(data['Size'][i])
print(data['Size']) 

该代码似乎仅部分适用于数据集,因为我得到以下输出

0                        19
1                        14
2                       8.7
3                        25
4                       2.8
                ...        
10836                   53M
10837                  3.6M
10838                  9.5M
10839    Varies with device
10840                   19M
Name: Size, Length: 10829, dtype: object

请告诉一个正确的方法。

标签: pythonpandasjupyter-notebook

解决方案


我创建了一个示例数据框来显示结果:

df = pd.DataFrame({'A': [1,2,1], 'B': [3,4,3], 'Size': ['Ma2','kb3','3l Varies with device po']})
for i, v in enumerate(df['Size'].values):
    v = v.replace('M', '')
    v = v.replace('k', '')
    v = v.replace('Varies with device', '')
    df['Size'].values[i] = v
print(df)

前 :

    A   B   Size
0   1   3   Mfoobar1
1   2   4   kfoobar2
2   1   3   Varies with devicefoobar3

后 :

    A   B   Size
0   1   3   foobar1
1   2   4   foobar2
2   1   3   foobar3

推荐阅读