python - 什么是合适的分隔符?
问题描述
我有一个具有以下结构的文本文件:
>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled
MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL
KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY
>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled
MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL
KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY
我需要加载并转换此文件,如下表结构:
--------------------------------------------------------------
|>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled |
|MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL|
|KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY|
--------------------------------------------------------------
|>hsa:9934 K04299 purinergic receptor P2Y, G protein-coupled |
|MINSTSTQPPDESCSQNLLITQQIIPVLYCMVFIAGILLNGVSGWIFFYVPSSKSFIIYL|
|KNIVIADFVMSLTFPFKILGDSGLGPWQLNVFVCRVSAVLFYVNMYVSIVFFGLISFDRY|
--------------------------------------------------------------
我尝试了以下代码:
dataset = pd.read_csv(path, sep = ">")
但它并没有像我预期的那样工作!
我怎样才能得到确切的格式?
解决方案
你可以使用 str.split('>') 所以你最终得到每个值的数组。除非 '>' 可能出现在散列中
推荐阅读
- c - 无限循环子集和回溯
- javascript - 如何将变量导出到其他 javascript 文件
- mysql - 如何获取mysql中的数据是否相同?
- r - 在 R 中将 JSONL 文件转换为 CSV
- c++ - Clang根据什么发出“未使用的表达式结果”警告
- pandas - 一级中具有重复值的 pandas MultiIndex
- postgresql - 如何在 Postgres 中选择复制下的表或在 Postgres 中列出复制下的数据库
- python - Python 语句结构
- arrays - 从任意两个或多个连续自然数相乘形成的排序数组中找到第 N 个数
- python - 在python中存储crf Tagger