python - 如何使用python计算csv文件中具有条件的元素
问题描述
我是 python 语言的新手。我有一个 csv 格式的表,其中有 n 列,其中标题是 Tax_id,每列都包含这样的物种名称
9606 9606.1 508771
0 root root root
1 cellular organisms cellular organisms cellular organisms
2 Eukaryota Eukaryota Eukaryota
3 Opisthokonta Opisthokonta Sar
4 Metazoa Metazoa Alveolata
5 Eumetazoa Eumetazoa Apicomplexa
6 Bilateria Bilateria Conoidasida
7 Deuterostomia Deuterostomia Coccidia
8 Chordata Chordata Eucoccidiorida
9 Craniata Craniata Eimeriorina
我想要做的是能够编写一个 python 代码,仅对包含名为“Metazoa”的物种的列计算每个物种的出现次数。
#to return something like
Eumetazoa 2
Bilateria 2
Craniata 2
解决方案
我仍然不完全确定你想要什么。这样的事情有用吗?请注意,您需要为此安装包 pandas(如何安装 pandas)。
我假设您的 CSV 文件如下所示:
s = '''9606,9606.1,508771
0,root,root,root
1,cellular organisms,cellular organisms,cellular organisms
2,Eukaryota,Eukaryota,Eukaryota
3,Opisthokonta,Opisthokonta,Sar
4,Metazoa,Metazoa,Alveolata
5,Eumetazoa,Eumetazoa,Apicomplexa
6,Bilateria,Bilateria,Conoidasida
7,Deuterostomia,Deuterostomia,Coccidia
8,Chordata,Chordata,Eucoccidiorida
9,Craniata,Craniata,Eimeriorina'''
算法:
import pandas as pd
from io import StringIO
def filter_and_count(df, search_string):
df_filtered = df.loc[:, (df == search_string).any(axis=0)]
return pd.melt(df_filtered)['value'].value_counts()
df = pd.read_csv(StringIO(s)) # replace this with read_csv("filename")
print(filter_and_count(df, 'Metazoa'))
输出:
root 2
Metazoa 2
Deuterostomia 2
Craniata 2
cellular organisms 2
Chordata 2
Eumetazoa 2
Opisthokonta 2
Eukaryota 2
Bilateria 2
Name: value, dtype: int64
推荐阅读
- javascript - 如何使 contenteditable div 只接受数值?CTRL、Spacbar 和退格等所有功能键也应该可以使用
- doxygen - 自定义 Doxygen 参数
- c - 如何使用 C (Windows) 计算文件和子文件夹的数量
- python - 如何在 Tkinter 中更改框架上的文本位置
- node.js - 在 Elastic BeanStalk 中部署期间重新创建目录失败并出现错误
- javascript - Cap.findDevice 返回所有时间未定义
- php - jquery和php(ajax) 2021不等于2021
- reactjs - 基于类的 Context.Provider 和 UseContext 工作示例
- flutter - 找不到包“flutter_native_splash”。您是否忘记添加依赖项?
- pygame - 按钮上没有文字