2015-04-04 57 views
-4

我有以下序列,我需要爲其編寫正則表達式。有關如何開始的任何提示或技巧,將不勝感激!如何爲給定序列編寫正則表達式

更新:我的任務是爲給定的'對齊'編寫一個reg表達式,而不是'sequence',因爲我以前誤讀了。另外,我添加了空格來顯示序列在分配中的外觀,只是沒有空格。

QIQAAKIWAAKPYVDESRISIWGWSYGGF 
QIAAAKHWAQKDYIDEDRLAIWGWSYGGY 
QIQAAKAWGKKPYVDKTRMAIWGWSYGG 
QIEATRQFSKMGFVDDKRIAIWGWSYGGY 
QIEAARQFLKMGFVDSKRVAIWGWSYGGY 
QVFAAKELLKNRWADKDHIGIWGWSYGGF 
QVFAAKEVLKNRWADKDHIGIWGXSYGGF 
QVFAAKELLKNRWADKDHIGIWGWSYGGF 
QVFAAKELLKNRWADKDHIGIWGWSYGGF 
VGSASVSMMPRLPRLPQLLDQPGSSSGGY 
FIAAAEYLKAEGYTRTDRLAIRGGSNGGL 
FQCAAEYLIKEGYTSPKRLTINGGSNGGL 
FQCAAEYLIKEGYTTSKRLTINGGSNGGL 
FIAAGEYLQKNGYTSKDYMALSGRSNGGL 
YLDACDALLKLGYGSPSLCYAMGGSAGGM 
FIAAAKHLIDQNYTSPTKMAARGGSAGGL 
QITAVRKFIEMGFIDEKRIAIWGWSYGGY 
QLTAVRKFIEMGFIDEERIAIWGWSYGGY 
+2

你需要包括你想要的輸出是什麼細節。在不知道你感興趣的部分以及你想要匹配什麼的情況下,沒有人能夠爲你提供比「嘗試'(。*)''更有用的東西。」 – Bryan 2015-04-04 22:13:19

+0

我的任務只是說:「寫一個描述上面對齊的正則表達式」。這是一個奇怪的問題嗎?我從來沒有錯過一次講座,併發誓我的教授從未提到正則表達式。我所做的研究給了我一些他們是什麼的想法,但一直沒能找到任何可比的例子。對不起,如果我的問題看起來含糊不清,我的作業不會給出更詳細的說明 – Ksims 2015-04-05 16:37:49

+0

Ksims,這個作業描述在我看來似乎是模糊的。但我對生物信息學沒有任何認識。它看起來像[mdperry的](http://stackoverflow.com/a/29453244/51242)中的[鏈接](http://scansite.mit.edu/dbsequence_reg.html)回答你的其他問題可能是一個很好的開始的地方。另外,您是否可以聯繫您的教授要求澄清? – Bryan 2015-04-05 19:43:57

回答

1

這些是步驟我會採取:

1)比對序列
2)讀出的對準的每一列和在每個位置產生不同的可能的氨基酸的列表
3 )的每個位置,現在可以通過其被容易地轉換到一個正則表達式的列表來表示

對於第一三個位置將是:

(Q|V|F|Y)(I|V|G|Q|L)(T|A|D|L|S|F|E|Q) 

哦,如果你想成爲生物統計學畢業的學生,​​大聲哭喊,學習一些生物學!

+0

非常感謝!這完全回答了我的問題。正如我的想法,比我做得更簡單。 – Ksims 2015-04-07 01:42:24