fasta

0熱度

4回答

這是我輸入的樣子： >a AACTCTCTC CGTGCTCTC >b_random ACTGSTSTS CTCTCTCCT ATATATA >c AACTCTCTC CGTGCTCTC >d AACTCTCTC CGTGCTCTC CGTGCTCTC >e_random ACTGSTSTS CTCTCTCCT ATATATA >c_random ACTGST

2熱度

2回答

從手冊中解讀一段文字

我試圖讓一些生物信息學軟件運行（TE Displayer），但它根本不起作用。我認爲問題可能在於軟件如何識別FASTA頭文件。據說這是文件。在標題行的序列標識符采取的「\瓦特（1,10）\ d（2,9）」，意思是「字後面數字字符（1-10）的圖案（2-9）「，因此請儘量避免標題行中出現非標識符短語（例如」Build04「）。例如，標題行「> OrganismX Accession AC000

1熱度

2回答

用Unix命令行工具修改FASTA頭文件

我再次被修改文本卡住了。我想改變大的文本文件，如這些： >hg19_ct_UserTrack_3545_691 range=chr1:8121498-8121502 5'pad=0 3'pad=0 strand=+ repeatMasking=none GATGG >hg19_ct_UserTrack_3545_690 range=chr1:8121587-8121591 5'pad=0 3'

2熱度

5回答

使用python刪除fasta文件中的句點

我是python（使用2.7）的新手，我試圖使用對齊的序列的fasta文件並刪除句點（。）和破折號（ - ）。我正在嘗試編寫一個循環，以便python遍歷每一行，並且不用任何內容來替換句點和破折號。這是腳本我有（當我運行它，它消除了時間和破折號但留下空格後面）： InFileName = 'myfile.fasta' InFile = open(InFileName, 'r') OutFil

0熱度

3回答

如何解析匹配文件，並在Perl中匹配字符串之前打印字符串？

我想解析一個GBK文件。基本上，我需要返回匹配模式的基因座位標籤和產品名稱。因此，如果主題我想搜索所有預測基因產物，檢索詞「預言」將返回： /product="predicted semialdehyde dehydrogenase" /locus_tag="ECDH10B_2481" 我已經能夠返回/product但我無法弄清楚如何解析「向後「來抓取/locus_tag。這是我到目前爲止

0熱度

1回答

無法從Emsembl FASTA刪除換行符

我試圖從Ensembl FASTA文件中找到蛋白質圖案。我已經完成了大部分腳本，比如檢索序列ID和序列本身，但是我收到了一些有趣的結果。 #!/usr/bin/perl use strict; use warnings; use autodie; my $motif1 = qr/(HE(\D)(\D)H(\D{18})E)/x; my $motif2 = qr/(AMEN)/x; m

1熱度

1回答

如何在兩個非常大的fasta文件中找到具有相同名稱的序列並將它們連接在一起？

我有兩個非常大的fasta文件，都是2GB左右。他們有一些序列共享相同的名稱，所以它是這樣的：在R1.fasta：「> ABC001 ACTGTGTCGTG 」> ABC003 ACTGTGTCGTG 「> ABC005 ACTGTGTCGTG 「> ABC010 ACTGTGTCGTG and in R2.fasta 「> ABC002 ACTGTGTCGTG 」> ABC003 ACTGT

1熱度

5回答

fasta：在n長度後刪除序列

我有不同長度的每個文件中具有1000個seq的多個fasta文件。我想只保留每個序列的前200（n）個鹼基。我如何在Perl中做到這一點？

-1熱度

1回答

AWK：將行寫入多個文件

我試圖使用awk從FASTA文件中提取序列。例如該文件看起來像這樣，它包含703個序列。我想提取它們中的每一個來分隔文件。 >sequence_1 AACTTGGCCTT >sequence_2 AACTTGGCCTT . . . 我使用這個awk腳本： awk '/>/ {OUT=substr($0,2) ".fasta"}; OUT {print >OUT}'file.fas

1熱度

1回答

如何在一個文件中提取fasta序列，該文件的頭部行與另一個文件中的列表相匹配？

我是一個新手，Perl的。我試圖從一個與另一個文件中的行匹配的文件中提取fasta序列。兩個示例文件如下： File1.fasta： > gene_44 | 105_nt | + | 47540 | 47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCC