python - 如何根据列表中的值从文本文件中删除行?
问题描述
我有一个非常大的文本文件(coverage.txt)>2G,它看起来像这样:
#RefName Pos Coverage
BGC0000001_59320bp 0 0
BGC0000001_59320bp 1 0
BGC0000002_59320bp 2 0
BGC0000002_59320bp 3 0
BGC0000002_59320bp 4 0
BGC0000003_59320bp 5 0
BGC0000003_59320bp 6 0
BGC0000003_59320bp 7 0
BGC0000004_59320bp 8 0
BGC0000004_59320bp 7 0
BGC0000004_59320bp 8 0
BGC0000005_59320bp 7 0
BGC0000005_59320bp 8 0
BGC0000005_59320bp 7 0
BGC0000006_59320bp 8 0
BGC0000006_59320bp 7 0
BGC0000006_59320bp 8 0
BGC0000007_59320bp 7 0
BGC0000007_59320bp 8 0
BGC0000007_59320bp 7 0
BGC0000008_59320bp 8 0
BGC0000008_59320bp 7 0
BGC0000008_59320bp 8 0
BGC0000009_59320bp 7 0
BGC0000009_59320bp 8 0
我有另一个像这样的文本文件(rmList.txt):
BGC0000002
BGC0000004
BGC0000006
BGC0000008
如果这些行包含 rmList.txt 中的 ID,我想从我的 coverage.txt 文件中删除这些行。
这是我尝试过的:
wanted = [line.strip() for line in open('rmList.txt')]
files = 'coverage.txt'
def rmUnwanted(file):
with open(file) as f, open('out.txt', 'w') as s:
for line in f:
pos = line.split()[0].split('_')[0]
if pos not in wanted:
s.write(line)
rmUnwanted(files)
但这对我的大文件来说是永远的。有一个更好的方法吗?我的代码有什么问题吗?
太感谢了!
解决方案
在我看来,代码没有错,它做了你想要的。但是对于大文件,这将需要时间。您可能仍然致力于提高效率。
如果您确定您的两个文件都已排序(如您的示例所示),则此代码应该更快:
def rmUnwanted(file):
with open(file) as f, open('out.txt', 'w') as s:
i = 0
lastwanted = ""
for line in f:
pos = line.split()[0].split('_')[0]
try:
if pos not in [wanted[i], lastwanted]:
s.write(line)
else:
if pos == wanted[i]:
lastwanted = wanted[i]
i = i+1
except IndexError:
s.write(line)
它使用您提供的示例文件给出了相同的结果,但速度更快(我没有测量它,但应该是)。我在这里所做的是避免在每次迭代pos
时在整个wanted
列表中查找,如果您的真实 rmList.txt 也很大,这将非常耗时。
推荐阅读
- javascript - Trying to implement own function in an existing GitHub project
- powerbi - Drill through not possible #Conditional drill #GuyInACube
- augmented-reality - Improve load time of large `.reality` files
- embedded-resource - Embed dynamic resource into vsix project before build
- javascript - Please check why this script not Working?
- java - Iterating in Arraylist
- python - 使用 BS4+request 的网页抓取代码不刷新
- python - 机器人不向 dm 发送消息
- c# - Failure to publish C# application using Produce a Single File option
- vba - 使用两个未绑定的文本框按日期范围过滤表单记录