首页 > 解决方案 > 如何从python pandas中的多个excels文件中删除重复记录

问题描述

我每天有 100 多个文件来验证重复行,删除重复记录后必须将所有文件重写到目标文件夹。试图使它为单个文件及其工作,现在每当使用 for 循环读取不。它给我的字典对象不知道如何处理多个文件的文件。我只想将所有文件都写成 excel,因为它将被输入到其他一些程序中。

单个文件的工作代码。

#reading files Source\Studentsheet1.xlsx        
df = pd.read_excel('C:\Source\Studentsheet1.xlsx')
#removing duplicates
df1=df.drop_duplicates()
#Now writing file to Target folder
df1.to_excel('C:\target\Studentsheet1.xlsx',columns=['StudentID', 'Class', 'Name', 'Section', Admission_date'],index=False, index_label=None)

样本数据:学生 ID:-SN0001 和 SN0002 是重复行

            StudentID    Class   Name    Section Admission_date 
    Index                                                                
    1       SN0001       XI      Chris     A     2017-06-01            
    2       SN0002       XII     Adam      B     2016-06-01           
    3       SN0003       X       Justyna   A     2018-06-01     
    4       SN0004       XI      Maria     B     2017-06-01     
    5       SN0001       XI      Chris     A     2017-06-01     
    6       SN0002       XII     Adam      B     2016-06-01    

标签: pythonexcelpandas

解决方案


推荐阅读