2015-06-21 28 views
1

我有fasta 5000個蛋白質序列的大文件,其中有假設的蛋白質和功能蛋白質,我怎樣才能從假定的蛋白質中分離假設的蛋白質。所以基本上假設的蛋白質在他們的標題中有假設的詞,所以我希望我可以使用一些命令來分離它們。有沒有人知道一個python或linux命令來做到這一點?一些這樣的事命令我可以用來從一組蛋白質中分離假設的蛋白質?

vir0002 BASYS00002,605-1000(順時針)MobC蛋白 MPKPASDGAGSGCHVQAGVTSLPTEYPFDRRKSRMARTQTFTQEQLDKTKQALSELPDLS RNKIAKADFLESLKDQIVLLANTKGYSPAEIKSALAQVNVTVSVKSIADLLNTQGKRQPR KSADKKSNPTQ vir003 yubP,2257年至1421年(逆時針)UPF0380蛋白yubP MQFSNSVRGPNMLRADHPLSNEQIASVAPSIFAAEAYESRSERYLYIPTVEVLDALREEG FEPFMASQTRVRNAGKIEHTKHMLRLRHSSSIMDKEADEIILLNSHDGSSSYQMMAGVFR FVCQNGLVIGDRSFDQKIRHSGNDDIKSDVIEGAYEVLDQFKAMSEQKECMKQIKLCADE QEAFATAALSYRYDPQEGPAPVTARQLLSPRRVEDYENDLWTTFNRIQENSIKGGLRGRN KSGRRATTRSVSGIDQD VKLNRALWTLAQELRGHLTTA vir004 BASYS00004,3593-2535(逆時針)核酸酶 MHELSAEAASQLEALEKELESVQATIESLSDQDSEQSKALDIREDELEDEISKIQKSREG FALEVMPHAGAVISYYYGDLRINRGMVRTADRESVNAVLGEGERLAGGRETESAGRKSNT ISDALRRSLLGHRNLAAQFVTAANPKAAKMLIVCKWISDTRRNWSATPTDLSIGNGYGAR TGCPITDEAGRVREEEFVALGELLIEGLPTEYGDLWDALAALSEAEIDKLLAFAVARSVS LAVEDNVLSKKYVQTLGMKMEDHFVPTVGNYLGRVSKELIIEALKEARKIQSDEDQVTLL AMKKGALAAEAETRLMGTGWVPAEIATKPEELAQEKNSKKKKNSSKPATGKA vir005 yubM,4624-3506(逆時針)未表徵蛋白yubM MSLHVVTLMCVECITIPSALHRHRCPIRAAATAPGLPCRGFYMSNAYNTVVPFNRLRRSE ENVRRTGRASAHYKAGIKKLAASILSTHKQTGQGLLQNLVVHVNGENFDVAAGGRRYDAV SLLIEEGEFQADYPTACL VIDADAVTAASLTENVSREAMHPADELDAFKALTEQGWTIDS IPDSFGVTALVVERRLKVRAAAPALIEEYRLGALTTDQLIALCATDDHDRQLEVWNRLRQ QHWNNDPATLRRAVIKTEVESNDKRVTFIGGVEVYEAAGGEVRRDLFAEDGQGAFLSDSA LLDVLVETKLQEVGEQVRAEGWGWIEVWQQFDHTHTVWATHRRSCMSCQPKQLVSLKHWK RSLRAYRPPLRA vir006 BASYS00006,5844-5293(逆時針)假定蛋白PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA

,我會期待個人有T WO含有

vir006 BASYS00006,5844-5293(逆時針)假定蛋白PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA 和其它含蛋白質序列

+0

蛋白質在文件中有多不同? – Tempux

+0

一些有專有名稱,即假定的名稱,但其他人是未知的,所以他們將在頭部有假設的字,我想提取所有那些與頭部中的假設字 –

+0

文件結構是不可理解的問題。 – Tempux

回答

1

Biopython具有的其餘文件 一個一個FASTA解析器應該能夠做你想做的。獲取和使用它的說明在http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc11

http://www.petercollingridge.co.uk/python-bioinformatics-tools/fasta-parser有一個簡單的Python腳本用於讀取FASTA文件並將其轉換爲帶有標題行(以>開頭)作爲關鍵字的字典。我的例子中沒有看到這些。文件中的標題如何與序列內容區分開來?

https://gamma2.wordpress.com/2014/01/03/reading-a-fasta-file-with-python/提供瞭如上所述編寫相同類型腳本的逐步指令。將包含「假設蛋白質」的標題添加到過濾器很容易,可以跳過散列並根據標題匹配與否將標題+序列輸出寫入兩個不同的文件。

使用Ruby,bioruby類Bio :: Sequence :: Common和Bio :: FastaFormat具有很酷的功能。第一種是使用toFasta方法以FASTA格式編寫Bio :: Sequence對象的mixin。第二個可以讀取FASTA文件作爲Bio :: Sequence對象,並且具有7個與FASTA頭部(定義線)相關的方法和6個用於序列的方法。參見http://bioruby.open-bio.org/rdoc/Bio/Sequence/Common.htmlhttp://bioruby.open-bio.org/rdoc/Bio/FastaFormat.html以及從http://bioruby.open-bio.org/wiki/SampleCodes#How_do_I_write_Sequences_in_Fasta_format.3F開始的示例程序。

相關問題