python - Python - 在 DataFrame 中搜索模式,后跟多个可能的字符串
问题描述
我有一个数据框,其中一列有很长的分号分隔字符串列表:
基因ID ENSGACG00000019161;基因版本1;成绩单_id ENSGACT00000025386; 成绩单版本 1;外显子编号 9;基因名称 slc7a8a;基因源合奏;基因_生物型蛋白质_编码;成绩单名称 slc7a8a-203;转录源合奏;转录生物型蛋白质编码;exon_id ENSGACE00000225405;外显子版本 1;
我想以某种方式逐行提取并仅拉出gene_name之后和分号之前的字符串。所以在这种情况下slc7a8a。如果这是一个简单的问题或重复的问题,我很抱歉。我试图浏览多种资源,但甚至不知道描述我想做的最简洁的方式很难找到任何有用的东西。
谢谢
解决方案
您可以使用将正则表达式模式作为输入参数的pandas str.extract :
df['col_name'].str.extract('gene_name(.*?);')
推荐阅读
- angular - 502 Bad Gateway for Proxy Pass to HTTPS API 服务器位于 Cloudflare Proxy 后面
- python - 如何更新变量的值
- opengl - 如何从计算着色器获取输出
- c - Valgrind 报告无效读取大小为 8,但没有内存泄漏
- python - 在合并/左连接期间替换数据框中的 NaN
- html - 如何在 React 中像 gmail 一样在鼠标悬停上创建删除按钮
- python - 如何连续运行 webscraper 直到被中断
- html - 如何在没有间隙的情况下为图像添加 1px 边框?
- javascript - 如何在选择框中添加水平滚动条
- python - 如何检查数据集中的平均单词数?