我有一套使用軟件找到的(蛋白質)序列,但它們的長度比數據庫中的原始序列短。下載了整個數據庫,現在我已經找到了這些不完整序列的集合,並找到了序列的原始數據庫。從軟件使用Python檢索缺失的序列-'split'命令不起作用
實施例的結果是:
>tr|E7EWP2|E7EWP2_HUMAN Uncharacterized protein OS=Homo sapiens GN=TRIO PE=4 SV=2
KEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVE
序列在數據庫中:
>tr|E7EWP2|E7EWP2_HUMAN Uncharacterized protein OS=Homo sapiens GN=TRIO PE=4 SV=2
ARRKEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVEEIP
因此丟失的殘基是 'ARR' 和到底 'EIP',我有大約70不完整序列喜歡這個?我想編寫一個可以自動從數據庫中檢索完整序列的Python程序。 我真的是新的python,當然我會嘗試寫我自己的代碼,我想知道是否有任何庫或類似biopython模塊可以做到這一點。 我的計劃是從我的結果中取出間隔,展開並在原始數據庫上選中它,但我不知道如何繼續。
我想獲得list_seq = [ARR,KEFIMAELIQTEKAYVRDLRECMDTYLWEMTSGVE,EIP]
,以便我可以進一步使用list_seq[0] r.strip(3)
和list_seq[1] l.strip[3]
以便我得到完整的序列。但是list_seq不起作用。
在此先感謝
酷的故事,現在開始工作,當你有一個特定的編程問題時回來。 – 2012-01-02 15:54:34
Jochen想要交流的是這樣一個問題,那就是「爲我寫這個程序」,這不是本網站的目的。如果你表現出自己的努力來解決問題,你很有可能獲得幫助。 – 2012-01-02 15:58:02
你可能想看看[difflib](http://docs.python.org/library/difflib.html)。 – jterrace 2012-01-02 16:09:42