python - 如何使用 pandas 对 Excel 文件中的数据进行排序。并对重复项进行排序
问题描述
我正在尝试使用熊猫过滤数据。
df_c = pd.read_csv (r'C:\Users\User\Documents\Research\output-mutations.csv')
df_c.drop_duplicates(subset = ["FILENAME", "CHAIN", "MUTATION_CODE"],
keep = False, inplace = True)
df_c.to_csv (r'C:\Users\User\Documents\Research\output-mutations-concise.csv')```
现在,这就是我所拥有的。我正在尝试删除我的一个列中的重复项,并在我的最后一列中打印所有匹配项。我有一个我想做的例子,但我不知道从哪里开始以及与 panda 一起使用什么命令。我尝试了 .drop 命令。
解决方案
您可以使用groupby
andapply
代替drop
.
df = df.groupby(by=[ "FILENAME", "CHAIN"],as_index=False).apply(lambda x: ";".join(x["MUTATION_CODE"]))
df.columns = ["FILENAME", "CHAIN", "MUTATION_CODE"]
print(df)
推荐阅读
- c# - TD Ameritrade API 多重报价订阅
- javascript - 为什么 React 的 usePrevious 函数在这个 MDN 焦点管理示例中起作用?
- windows - 如果您不小心删除了路径,文件会去哪里?
- laravel - Laravel 在字符串中使用自定义 IF 语句
- javascript - 如何确定是否需要 Node.js 文件或直接运行?
- angular - 有没有办法使用 Excel 中的 office-js 应用程序中的外部链接重定向到组件?
- python - 如何遍历 DataFrame 列以计算字符串中子字符串的出现次数?
- javascript - 对单选输入值求和
- javascript - Angularjs - 如何使复选框像选择一样工作?
- c++ - 在 C++ 中模板化列表