首页 > 解决方案 > 使用 Python 读取多个文本文件时删除重复项

问题描述

我在尝试着:

这是代码,我想出了:

import glob

read_files = glob.glob(data_path + "*.txt")

header_saved = False
with open(data_path +"result.txt","w") as outfile:
    for f in read_files:
        with open(f) as infile:
            header = next(infile)
            if not header_saved:
                outfile.write(header)
                header_saved = True
            text = infile.read()
            replaced_text = re.sub(r"[-()\"#@;:<>{}`+=~|.!?,]", "", text)
            outfile.write(replaced_text+"\n")

问题是,由于某种原因,这会产生重复的行。

有人看到有问题的代码部分吗?

我很感激任何帮助。

谢谢!

标签: pythonparsingdata-cleaning

解决方案


推荐阅读