命令我可以用來從一組蛋白質中分離假設的蛋白質？

我有fasta 5000個蛋白質序列的大文件，其中有假設的蛋白質和功能蛋白質，我怎樣才能從假定的蛋白質中分離假設的蛋白質。所以基本上假設的蛋白質在他們的標題中有假設的詞，所以我希望我可以使用一些命令來分離它們。有沒有人知道一個python或linux命令來做到這一點？一些這樣的事命令我可以用來從一組蛋白質中分離假設的蛋白質？

vir0002 BASYS00002，605-1000（順時針）MobC蛋白 MPKPASDGAGSGCHVQAGVTSLPTEYPFDRRKSRMARTQTFTQEQLDKTKQALSELPDLS RNKIAKADFLESLKDQIVLLANTKGYSPAEIKSALAQVNVTVSVKSIADLLNTQGKRQPR KSADKKSNPTQ vir003 yubP，2257年至1421年（逆時針）UPF0380蛋白yubP MQFSNSVRGPNMLRADHPLSNEQIASVAPSIFAAEAYESRSERYLYIPTVEVLDALREEG FEPFMASQTRVRNAGKIEHTKHMLRLRHSSSIMDKEADEIILLNSHDGSSSYQMMAGVFR FVCQNGLVIGDRSFDQKIRHSGNDDIKSDVIEGAYEVLDQFKAMSEQKECMKQIKLCADE QEAFATAALSYRYDPQEGPAPVTARQLLSPRRVEDYENDLWTTFNRIQENSIKGGLRGRN KSGRRATTRSVSGIDQD VKLNRALWTLAQELRGHLTTA vir004 BASYS00004，3593-2535（逆時針）核酸酶 MHELSAEAASQLEALEKELESVQATIESLSDQDSEQSKALDIREDELEDEISKIQKSREG FALEVMPHAGAVISYYYGDLRINRGMVRTADRESVNAVLGEGERLAGGRETESAGRKSNT ISDALRRSLLGHRNLAAQFVTAANPKAAKMLIVCKWISDTRRNWSATPTDLSIGNGYGAR TGCPITDEAGRVREEEFVALGELLIEGLPTEYGDLWDALAALSEAEIDKLLAFAVARSVS LAVEDNVLSKKYVQTLGMKMEDHFVPTVGNYLGRVSKELIIEALKEARKIQSDEDQVTLL AMKKGALAAEAETRLMGTGWVPAEIATKPEELAQEKNSKKKKNSSKPATGKA vir005 yubM，4624-3506（逆時針）未表徵蛋白yubM MSLHVVTLMCVECITIPSALHRHRCPIRAAATAPGLPCRGFYMSNAYNTVVPFNRLRRSE ENVRRTGRASAHYKAGIKKLAASILSTHKQTGQGLLQNLVVHVNGENFDVAAGGRRYDAV SLLIEEGEFQADYPTACL VIDADAVTAASLTENVSREAMHPADELDAFKALTEQGWTIDS IPDSFGVTALVVERRLKVRAAAPALIEEYRLGALTTDQLIALCATDDHDRQLEVWNRLRQ QHWNNDPATLRRAVIKTEVESNDKRVTFIGGVEVYEAAGGEVRRDLFAEDGQGAFLSDSA LLDVLVETKLQEVGEQVRAEGWGWIEVWQQFDHTHTVWATHRRSCMSCQPKQLVSLKHWK RSLRAYRPPLRA vir006 BASYS00006，5844-5293（逆時針）假定蛋白PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA

，我會期待個人有T WO含有

vir006 BASYS00006，5844-5293（逆時針）假定蛋白PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA 和其它含蛋白質序列

來源

2015-06-21 cluster samuel

蛋白質在文件中有多不同？ – Tempux

一些有專有名稱，即假定的名稱，但其他人是未知的，所以他們將在頭部有假設的字，我想提取所有那些與頭部中的假設字 –

文件結構是不可理解的問題。 – Tempux

Biopython具有的其餘文件一個一個FASTA解析器應該能夠做你想做的。獲取和使用它的說明在http://biopython.org/DIST/docs/tutorial/Tutorial.html#htoc11。

在http://www.petercollingridge.co.uk/python-bioinformatics-tools/fasta-parser有一個簡單的Python腳本用於讀取FASTA文件並將其轉換爲帶有標題行（以>開頭）作爲關鍵字的字典。我的例子中沒有看到這些。文件中的標題如何與序列內容區分開來？

https://gamma2.wordpress.com/2014/01/03/reading-a-fasta-file-with-python/提供瞭如上所述編寫相同類型腳本的逐步指令。將包含「假設蛋白質」的標題添加到過濾器很容易，可以跳過散列並根據標題匹配與否將標題+序列輸出寫入兩個不同的文件。

使用Ruby，bioruby類Bio :: Sequence :: Common和Bio :: FastaFormat具有很酷的功能。第一種是使用toFasta方法以FASTA格式編寫Bio :: Sequence對象的mixin。第二個可以讀取FASTA文件作爲Bio :: Sequence對象，並且具有7個與FASTA頭部（定義線）相關的方法和6個用於序列的方法。參見http://bioruby.open-bio.org/rdoc/Bio/Sequence/Common.html和http://bioruby.open-bio.org/rdoc/Bio/FastaFormat.html以及從http://bioruby.open-bio.org/wiki/SampleCodes#How_do_I_write_Sequences_in_Fasta_format.3F開始的示例程序。

來源

2015-06-21 23:34:09

命令我可以用來從一組蛋白質中分離假設的蛋白質？

回答

相關問題