我有fasta 5000個蛋白質序列的大文件,其中有假設的蛋白質和功能蛋白質,我怎樣才能從假定的蛋白質中分離假設的蛋白質。所以基本上假設的蛋白質在他們的標題中有假設的詞,所以我希望我可以使用一些命令來分離它們。有沒有人知道一個python或linux命令來做到這一點?一些這樣的事命令我可以用來從一組蛋白質中分離假設的蛋白質?
vir0002 BASYS00002,605-1000(順時針)MobC蛋白 MPKPASDGAGSGCHVQAGVTSLPTEYPFDRRKSRMARTQTFTQEQLDKTKQALSELPDLS RNKIAKADFLESLKDQIVLLANTKGYSPAEIKSALAQVNVTVSVKSIADLLNTQGKRQPR KSADKKSNPTQ vir003 yubP,2257年至1421年(逆時針)UPF0380蛋白yubP MQFSNSVRGPNMLRADHPLSNEQIASVAPSIFAAEAYESRSERYLYIPTVEVLDALREEG FEPFMASQTRVRNAGKIEHTKHMLRLRHSSSIMDKEADEIILLNSHDGSSSYQMMAGVFR FVCQNGLVIGDRSFDQKIRHSGNDDIKSDVIEGAYEVLDQFKAMSEQKECMKQIKLCADE QEAFATAALSYRYDPQEGPAPVTARQLLSPRRVEDYENDLWTTFNRIQENSIKGGLRGRN KSGRRATTRSVSGIDQD VKLNRALWTLAQELRGHLTTA vir004 BASYS00004,3593-2535(逆時針)核酸酶 MHELSAEAASQLEALEKELESVQATIESLSDQDSEQSKALDIREDELEDEISKIQKSREG FALEVMPHAGAVISYYYGDLRINRGMVRTADRESVNAVLGEGERLAGGRETESAGRKSNT ISDALRRSLLGHRNLAAQFVTAANPKAAKMLIVCKWISDTRRNWSATPTDLSIGNGYGAR TGCPITDEAGRVREEEFVALGELLIEGLPTEYGDLWDALAALSEAEIDKLLAFAVARSVS LAVEDNVLSKKYVQTLGMKMEDHFVPTVGNYLGRVSKELIIEALKEARKIQSDEDQVTLL AMKKGALAAEAETRLMGTGWVPAEIATKPEELAQEKNSKKKKNSSKPATGKA vir005 yubM,4624-3506(逆時針)未表徵蛋白yubM MSLHVVTLMCVECITIPSALHRHRCPIRAAATAPGLPCRGFYMSNAYNTVVPFNRLRRSE ENVRRTGRASAHYKAGIKKLAASILSTHKQTGQGLLQNLVVHVNGENFDVAAGGRRYDAV SLLIEEGEFQADYPTACL VIDADAVTAASLTENVSREAMHPADELDAFKALTEQGWTIDS IPDSFGVTALVVERRLKVRAAAPALIEEYRLGALTTDQLIALCATDDHDRQLEVWNRLRQ QHWNNDPATLRRAVIKTEVESNDKRVTFIGGVEVYEAAGGEVRRDLFAEDGQGAFLSDSA LLDVLVETKLQEVGEQVRAEGWGWIEVWQQFDHTHTVWATHRRSCMSCQPKQLVSLKHWK RSLRAYRPPLRA vir006 BASYS00006,5844-5293(逆時針)假定蛋白PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA
,我會期待個人有T WO含有
vir006 BASYS00006,5844-5293(逆時針)假定蛋白PSPTOA MCPKLKAYHWQQGRHSPALNWKITVSAKNTDEQLLAMATKIKESYTPSEIAQLVRLISPT PNTGELSAEEFERVMQVLGSQNNRRPYSSKSVIAARLVLVMGASPSEAAKESGLARQNVS ELMLRIRKRMESLPQGWVKVSEWFPGEVAKQIGHISEALKDHHSAGKPLNELSFTIKLTG PTA 和其它含蛋白質序列
蛋白質在文件中有多不同? – Tempux
一些有專有名稱,即假定的名稱,但其他人是未知的,所以他們將在頭部有假設的字,我想提取所有那些與頭部中的假設字 –
文件結構是不可理解的問題。 – Tempux