首页 > 解决方案 > 如何根据列表中的值从文本文件中删除行?

问题描述

我有一个非常大的文本文件(coverage.txt)>2G,它看起来像这样:

#RefName    Pos Coverage
BGC0000001_59320bp  0   0
BGC0000001_59320bp  1   0
BGC0000002_59320bp  2   0
BGC0000002_59320bp  3   0
BGC0000002_59320bp  4   0
BGC0000003_59320bp  5   0
BGC0000003_59320bp  6   0
BGC0000003_59320bp  7   0
BGC0000004_59320bp  8   0
BGC0000004_59320bp  7   0
BGC0000004_59320bp  8   0
BGC0000005_59320bp  7   0
BGC0000005_59320bp  8   0
BGC0000005_59320bp  7   0
BGC0000006_59320bp  8   0
BGC0000006_59320bp  7   0
BGC0000006_59320bp  8   0
BGC0000007_59320bp  7   0
BGC0000007_59320bp  8   0
BGC0000007_59320bp  7   0
BGC0000008_59320bp  8   0
BGC0000008_59320bp  7   0
BGC0000008_59320bp  8   0
BGC0000009_59320bp  7   0
BGC0000009_59320bp  8   0

我有另一个像这样的文本文件(rmList.txt):

BGC0000002
BGC0000004
BGC0000006
BGC0000008

如果这些行包含 rmList.txt 中的 ID,我想从我的 coverage.txt 文件中删除这些行。

这是我尝试过的:

wanted = [line.strip() for line in open('rmList.txt')]
files = 'coverage.txt'

def rmUnwanted(file):
    with open(file) as f, open('out.txt', 'w') as s:
        for line in f:
            pos = line.split()[0].split('_')[0]
            if pos not in wanted:
                s.write(line)

rmUnwanted(files)

但这对我的大文件来说是永远的。有一个更好的方法吗?我的代码有什么问题吗?

太感谢了!

标签: python

解决方案


在我看来,代码没有错,它做了你想要的。但是对于大文件,这将需要时间。您可能仍然致力于提高效率。

如果您确定您的两个文件都已排序(如您的示例所示),则此代码应该更快:

def rmUnwanted(file):
    with open(file) as f, open('out.txt', 'w') as s:
        i = 0
        lastwanted = ""
        for line in f:
            pos = line.split()[0].split('_')[0]
            try:
                if pos not in [wanted[i], lastwanted]:
                    s.write(line)
                else:
                    if pos == wanted[i]:
                        lastwanted = wanted[i]
                        i = i+1
            except IndexError:
                s.write(line)

它使用您提供的示例文件给出了相同的结果,但速度更快(我没有测量它,但应该是)。我在这里所做的是避免在每次迭代pos时在整个wanted列表中查找,如果您的真实 rmList.txt 也很大,这将非常耗时。


推荐阅读