首页 > 解决方案 > 正则表达式 - 通过特定模板查找字母

问题描述

我需要写一段关于 DNA 的代码。

我需要在一串多字母之间找到需要与模板匹配的 6 个字母的序列。

例如:在索引 0 中它可以是字母 A 或 T,即它,只有那些字母。我用什么来做到这一点?正则表达式中的哪种类型的函数?

the_str = "AAATAAAATAAATAATAAAGAGCCAGAGGCCCTTGAAGAATGGATGGAAT\
TTGGACTTTAGCGGGGCTGGGGGACCCCGGAAATGGACGAGAAGCAGAAC\
CGAGGCCCTTTAGGGCTCAGCGGAGGCCTGCCTGTCTCTCTAAGGTCCCT\
CTTGGAGCAACTGAAGAAACTCCAGGCCATTGTGGTGCAGTCCACCAGCA\
AGTCAGCCCAGACAGGCACCTGTGTCGCAGTGAGTCCTGGTGCCCCCAGG\
CAAGCCGGGGACCTAGGCTTCTGTAGAGGGGCCCATAGGGAGGTGACAAT\
GAGTCCAAGCTCTCCTTGTGCCCCAGCTCAAGTATGATCCAGTCTGGTCT\
TTGGGGCCTCAGTTTCCCTGCCTGTGGGATGGAGATGCTTGCAGGGGAGG\
GGAGGGAGGGGGTGACTCTGCCGCTGTCTCCACCAGGTCCTGTTGCTGTC"

标签: nsregularexpression

解决方案


听起来你可能需要这样的东西?

(A|T)AGCGG

这将匹配 AAGCGG 或 TAGCGG。

如果第四个字符可以是 C、A、G 中的任何一个,那么它可能如下所示:

(A|T)AG(C|A|G)GG


推荐阅读