大廈領結指數衰竭（tophat2，bowtie2）

（注：標籤應該是tophat2和bowtie2，但我沒有點來創建新的標籤）大廈領結指數衰竭（tophat2，bowtie2）

問候：我使用Tophat2（命令行）分析RNA-seq數據，我遇到一些錯誤。

這裏是呼叫：

tophat2 -o tophat2_results/ -G ref_data/BA000007.2.gtf --transcriptome-index=transcriptome_data/RNA_LBG01b_241_filteredQ indices/BA000007.2 data_files/RNA_LBG01b_241_filteredQ.fastq

以下是錯誤：

[2015-12-29 12:58:33] Checking for Bowtie 
      Bowtie version:  2.2.4.0 
[2015-12-29 12:58:33] Checking for Bowtie index files (genome).. 
[2015-12-29 12:58:33] Checking for reference FASTA file 
[2015-12-29 12:58:33] Generating SAM header for indices/BA000007.2 
[2015-12-29 12:58:33] Reading known junctions from GTF file 
    Warning: TopHat did not find any junctions in GTF file 
[2015-12-29 12:58:33] Preparing reads 
    left reads: min. length=12, max. length=342, 202732 kept reads (1315 discarded) 
Warning: short reads (<20bp) will make TopHat quite slow and take large amount of memory because they are likely to be mapped in too many places 
[2015-12-29 12:58:39] Building transcriptome data files transcriptome_data/RNA_LBG01b_241_filteredQ 
[2015-12-29 12:58:40] Building Bowtie index from RNA_LBG01b_241_filteredQ.fa 
    [FAILED] 
Error: Couldn't build bowtie index with err = 1

版本信息： 頂禮帽V2.1.0 Bowtie2版本2.2.4的Python 2.7。 10 :: Anaconda 2.4.0（64位）

系統信息： CentOS版本6.7

我怎麼來到這裏和你有我想：

我使用大腸桿菌（登錄：BA000007.2）供我參考基因組可以在這裏找到：http://www.ncbi.nlm.nih.gov/nuccore/BA000007.2

我從合奏獲得我的GTF文件（ftp://ftp.ensemblgenomes.org/pub/release-29/bacteria//gtf/bacteria_9_collection/escherichia_coli_o157_h7_str_sakai/）

我使用bowtie2建造（tophat2調用之前）使我的指數

bowtie2-build -f ref_data/BA000007.2.fasta indices/BA000007.2

我知道，我收到錯誤隸屬於出現在* .gtf文件中的第一列和參考FASTA文件的名稱不同的名稱。如果我理解正確，第一列中的每個條目應該是BA000007.2，其中第一列中的大部分名稱都是「染色體」。爲了解決這個問題，我做了以下內容：

awk '{FS=OFS="\t"}{print "BA000007.2", $2, $3, $4, $5, $6, $7, $8, $9}' pathToGTF/BA000007.2_ensemble.gtf > pathToGTF/BA000007.2.gtf

#Please注意在合奏GTF文件的開頭的註釋建立信息（例如，＃基因組建立ASM80120v1！）從awk命令有會產生不良的輸出得到解決

我也改變了FASTA文件的終止從* .fasta爲* .fa

問題：

對於gtf文件的第一列與fasta文件的名稱（BA000007.2，BA000007.2.fa）之間的命名差異所引起的任何問題，我是否正確地將kibosh放在了？
當我細讀在日誌目錄中輸出，有幾個錯誤（g2f.err在ftf_juncs.log &類似的錯誤）與開頭的行：

警告： BA000007：在行無效的起始座標。 2 ena基因-194 2502。 +。gene_id「BAA31757」; gene_version「1」; gene_name「tagA」; gene_source「ena」; gene_biotype「protein_coding」;

確實在gtf文件中有負數，但在Genbank文件中沒有（在vim中快速搜索）。這可能是錯誤的根源嗎？我註釋掉了特定的行並將它們從文件中刪除 - 這兩種方法仍然會導致錯誤。

有什麼容易看出，可能會造成錯誤「有ERR = 1 無法建立領結指數」？

我一直堅持這一兩天，所以任何幫助，非常感謝。

來源

2015-12-29 cer

會[biostars]（https://www.biostars.org）成爲這個問題的更好地方 –

如果沒有人知道答案，您需要自己編譯Bowtie2源代碼。 – SmallChess

@Ismail M，很好的建議，但是，我的問題已經在biostars（101 views，no answers（yet））。 – cer

我發現問題的根源。它是引用fasta文件中的頭文件。最初的標題是：

>gi|47118301|dbj|BA000007.2| Escherichia coli O157:H7 str. Sakai DNA, complete genome

凡應該是

>BA000007

所以......如果FASTA文件名爲abc123.fa，然後在FASTA文件中的標題必須> ABC123。 gtf文件中的第一列也必須是abc123。

請注意，在我的所有通話中，我將基數從BA000007.2更改爲BA000007，並且我重命名了名稱中沒有.2的所有文件。它可能仍然適用.2，但我沒有測試出來（「基本名稱是任何索引文件的名稱，但不包括第一個時間段。」「[tophat manual]）（Thank you AM ）。最後，我將fasta文件從* .fasta更名爲* .fa。

來源

2015-12-31 16:55:30 cer

大廈領結指數衰竭（tophat2，bowtie2）

回答

相關問題