python - 如何识别重复并分配新 ID?
问题描述
我有一份 DNA 寡核苷酸列表供订购,其中包含重复序列。但是,我需要将它们与与哪个质粒一起使用的标识符配对。
换句话说,我需要这个数据框:
Oligo_sequence Plasmid
0 "ATG" "Plasmid A"
1 "ATG" "Plasmid B"
2 "CAG" "Plasmid C"
成为:
Oligo_sequence Plasmid
0 "ATG" ["Plasmid A","Plasmid B"]
1 "CAG" ["Plasmid C"]
我认为与此类似的功能可能会起作用。但我不知道如何识别重复项。
for index, row in df.iterrows():
plasmidlist = [row[1]]
if duplicate == True: #Is their a dublicate function I can use?
plasmidlist.append(duplicaterow[1])
drop(dublicaterow)
df.at[row,'Plasmid']= plasmidlist
解决方案
使用groupby
和agg
列表:
df.groupby('Oligo_sequence')['Plasmid'].agg(list)
输出:
"ATG" ["Plasmid A", "Plasmid B"]
"CAG" ["Plasmid C"]
Name: Plasmid, dtype: object
推荐阅读
- flutter - 颤动不同的社交身份验证重定向
- apache-kafka - Druid Zookeeper 与 Localhost 的连接错误
- scrapy - 如何在 Scrapy 中存储抓取的链接
- aws-pinpoint - AWS Pinpoint getJourney:无法解组响应
- java - Swagger 隐藏具有相同路径或相同 Http 方法的某些端点
- angular - 角度嵌套组件标签未显示
- javascript - JavaScript 条件未考虑函数中定义的变量
- mysql - 如何检查电子邮件是否存在于 MySQL 数据库中
- c++ - 编译器无法解析通过 std::mem_fn 传递的匹配类方法
- apache-spark - PySpark escapeQuotes=False 仍然转义引号