python - 在 python 中,仅提取文件的一部分时,如何确保单词保持在一行并且没有重复?
问题描述
我之前发布了一个问题,询问如何分离文件(如何将多个部分匹配字符串从行中拉出并在同一行上保持相同的顺序?)并弄清楚如何使用
prefixes = ["Zm00018ab","Zm00001eb","Zm00039ab"]
with open("MaizeGDB_maize_pangene_2020_08.txt","r") as infile:
with open("pangene_adjusted_2021_06.txt","w") as outfile:
for line in infile:
elements = line.split("\t")
to_write = []
for elem in elements:
if elem[:9] in prefixes:
to_write.append(elem)
print (to_write)
outfile.write("\t""\n".join(to_write))
但是我的输出中有原始数据中不存在的重复,并且没有分隔单词输出:
Zm00001eb045170Zm00001eb045170
Zm00018ab047740Zm00001eb045170
Zm00018ab047740
Zm00001eb045180Zm00001eb045170
Zm00018ab047740
Zm00001eb045180
Zm00039ab046010Zm00001eb045170
Zm00018ab047740
我正在寻找如何做到这一点,但我想我会问你们有帮助的人,以防你们中的一个人在我找到解决方案之前可以回答。
理想情况下,输出将是
Zm00001eb045170 Zm00018ab047740 Zm00038ab046680 Zm00018ab047760 Zm00038ab046670 Zm00001eb045180
new line with more gene IDs
解决方案
推荐阅读
- kubernetes - Why iptables rule setup in initContainer `istio-init` works in application container?
- kubernetes-helm - 我的 Windows 计算机上添加的 helm 存储库在哪里
- amazon-cloudwatch - fluentbit日志正在创建超过1000多个流,如果相同的应用程序但新的podname如何合并日志
- r - 生成针对色盲人士观看而优化的非连续颜色的调色板
- reactjs - react 中 useEffect 中的 Promise.all() 返回一个未定义项的数组
- c - 在C中的链表中搜索单词
- python - 如何在 pycharm 中调试包含可执行命令的 shell 脚本文件?
- python - 如何在 Django Rest Framework 中仅显示用户会话的文件
- c++ - 配置不完整,出现错误!制作
- java - 使用 super.paint(g) 后有没有办法重新绘制图形?