fasta

    0熱度

    4回答

    這是我輸入的樣子: >a AACTCTCTC CGTGCTCTC >b_random ACTGSTSTS CTCTCTCCT ATATATA >c AACTCTCTC CGTGCTCTC >d AACTCTCTC CGTGCTCTC CGTGCTCTC >e_random ACTGSTSTS CTCTCTCCT ATATATA >c_random ACTGST

    2熱度

    2回答

    我試圖讓一些生物信息學軟件運行(TE Displayer),但它根本不起作用。我認爲問題可能在於軟件如何識別FASTA頭文件。據說這是文件。 在標題行的序列標識符采取的 「\瓦特(1,10)\ d(2,9)」,意思是「字後面數字字符(1-10)的圖案(2-9) 「,因此請儘量避免標題行中出現非標識符短語(例如」Build04「)。例如,標題行「> OrganismX Accession AC000

    1熱度

    2回答

    我再次被修改文本卡住了。我想改變大的文本文件,如這些: >hg19_ct_UserTrack_3545_691 range=chr1:8121498-8121502 5'pad=0 3'pad=0 strand=+ repeatMasking=none GATGG >hg19_ct_UserTrack_3545_690 range=chr1:8121587-8121591 5'pad=0 3'

    2熱度

    5回答

    我是python(使用2.7)的新手,我試圖使用對齊的序列的fasta文件並刪除句點(。)和破折號( - )。我正在嘗試編寫一個循環,以便python遍歷每一行,並且不用任何內容來替換句點和破折號。這是腳本我有(當我運行它,它消除了時間和破折號但留下空格後面): InFileName = 'myfile.fasta' InFile = open(InFileName, 'r') OutFil

    0熱度

    3回答

    我想解析一個GBK文件。基本上,我需要返回匹配模式的基因座位標籤和產品名稱。因此,如果主題我想搜索所有預測基因產物,檢索詞「預言」將返回: /product="predicted semialdehyde dehydrogenase" /locus_tag="ECDH10B_2481" 我已經能夠返回/product但我無法弄清楚如何解析「向後「來抓取/locus_tag。 這是我到目前爲止

    0熱度

    1回答

    我試圖從Ensembl FASTA文件中找到蛋白質圖案。我已經完成了大部分腳本,比如檢索序列ID和序列本身,但是我收到了一些有趣的結果。 #!/usr/bin/perl use strict; use warnings; use autodie; my $motif1 = qr/(HE(\D)(\D)H(\D{18})E)/x; my $motif2 = qr/(AMEN)/x; m

    1熱度

    1回答

    我有兩個非常大的fasta文件,都是2GB左右。他們有一些序列共享相同的名稱,所以它是這樣的: 在R1.fasta: 「> ABC001 ACTGTGTCGTG 」> ABC003 ACTGTGTCGTG 「> ABC005 ACTGTGTCGTG 「> ABC010 ACTGTGTCGTG and in R2.fasta 「> ABC002 ACTGTGTCGTG 」> ABC003 ACTGT

    1熱度

    5回答

    我有不同長度的每個文件中具有1000個seq的多個fasta文件。我想只保留每個序列的前200(n)個鹼基。我如何在Perl中做到這一點?

    -1熱度

    1回答

    我試圖使用awk從FASTA文件中提取序列。 例如該文件看起來像這樣,它包含703個序列。我想提取它們中的每一個來分隔文件。 >sequence_1 AACTTGGCCTT >sequence_2 AACTTGGCCTT . . . 我使用這個awk腳本: awk '/>/ {OUT=substr($0,2) ".fasta"}; OUT {print >OUT}'file.fas

    1熱度

    1回答

    我是一個新手,Perl的。我試圖從一個與另一個文件中的行匹配的文件中提取fasta序列。兩個示例文件如下: File1.fasta: > gene_44 | 105_nt | + | 47540 | 47644 GTGCGCCGGCGCGTCGCGATCGCGAACCGGCCCGTGCGAATCCTGCCGCATGCGCGCCGCATCTCGCCACGCCGCGCATTTCATTTCGACATCC