2015-12-29 49 views
1

(注:標籤應該是tophat2和bowtie2,但我沒有點來創建新的標籤)大廈領結指數衰竭(tophat2,bowtie2)

問候:我使用Tophat2(命令行)分析RNA-seq數據,我遇到一些錯誤。

這裏是呼叫:

tophat2 -o tophat2_results/ -G ref_data/BA000007.2.gtf --transcriptome-index=transcriptome_data/RNA_LBG01b_241_filteredQ indices/BA000007.2 data_files/RNA_LBG01b_241_filteredQ.fastq 

以下是錯誤:

[2015-12-29 12:58:33] Checking for Bowtie 
      Bowtie version:  2.2.4.0 
[2015-12-29 12:58:33] Checking for Bowtie index files (genome).. 
[2015-12-29 12:58:33] Checking for reference FASTA file 
[2015-12-29 12:58:33] Generating SAM header for indices/BA000007.2 
[2015-12-29 12:58:33] Reading known junctions from GTF file 
    Warning: TopHat did not find any junctions in GTF file 
[2015-12-29 12:58:33] Preparing reads 
    left reads: min. length=12, max. length=342, 202732 kept reads (1315 discarded) 
Warning: short reads (<20bp) will make TopHat quite slow and take large amount of memory because they are likely to be mapped in too many places 
[2015-12-29 12:58:39] Building transcriptome data files transcriptome_data/RNA_LBG01b_241_filteredQ 
[2015-12-29 12:58:40] Building Bowtie index from RNA_LBG01b_241_filteredQ.fa 
    [FAILED] 
Error: Couldn't build bowtie index with err = 1 

版本信息: 頂禮帽V2.1.0 Bowtie2版本2.2.4的Python 2.7。 10 :: Anaconda 2.4.0(64位)

系統信息: CentOS版本6.7

我怎麼來到這裏和你有我想:

我使用大腸桿菌(登錄:BA000007.2)供我參考基因組可以在這裏找到:http://www.ncbi.nlm.nih.gov/nuccore/BA000007.2

我從合奏獲得我的GTF文件(ftp://ftp.ensemblgenomes.org/pub/release-29/bacteria//gtf/bacteria_9_collection/escherichia_coli_o157_h7_str_sakai/

我使用bowtie2建造(tophat2調用之前)使我的指數

bowtie2-build -f ref_data/BA000007.2.fasta indices/BA000007.2 

我知道,我收到錯誤隸屬於出現在* .gtf文件中的第一列和參考FASTA文件的名稱不同的名稱。如果我理解正確,第一列中的每個條目應該是BA000007.2,其中第一列中的大部分名稱都是「染色體」。爲了解決這個問題,我做了以下內容:

awk '{FS=OFS="\t"}{print "BA000007.2", $2, $3, $4, $5, $6, $7, $8, $9}' pathToGTF/BA000007.2_ensemble.gtf > pathToGTF/BA000007.2.gtf 

#Please注意在合奏GTF文件的開頭的註釋建立信息(例如,#基因組建立ASM80120v1!)從awk命令有會產生不良的輸出得到解決

我也改變了FASTA文件的終止從* .fasta爲* .fa

問題:

  1. 對於gtf文件的第一列與fasta文件的名稱(BA000007.2,BA000007.2.fa)之間的命名差異所引起的任何問題,我是否正確地將kibosh放在了?

  2. 當我細讀在日誌目錄中輸出,有幾個錯誤(g2f.err在ftf_juncs.log &類似的錯誤)與開頭的行:

    警告: BA000007:在行無效的起始座標。 2 ena基因-194 2502。 +。gene_id「BAA31757」; gene_version「1」; gene_name「tagA」; gene_source「ena」; gene_biotype「protein_coding」;

確實在gtf文件中有負數,但在Genbank文件中沒有(在vim中快速搜索)。這可能是錯誤的根源嗎?我註釋掉了特定的行並將它們從文件中刪除 - 這兩種方法仍然會導致錯誤。

  • 有什麼容易看出,可能會造成錯誤「有ERR = 1 無法建立領結指數」?
  • 我一直堅持這一兩天,所以任何幫助,非常感謝。

    +0

    會[biostars](https://www.biostars.org)成爲這個問題的更好地方 –

    +0

    如果沒有人知道答案,您需要自己編譯Bowtie2源代碼。 – SmallChess

    +0

    @Ismail M,很好的建議,但是,我的問題已經在biostars(101 views,no answers(yet))。 – cer

    回答

    0

    我發現問題的根源。它是引用fasta文件中的頭文件。最初的標題是:

    >gi|47118301|dbj|BA000007.2| Escherichia coli O157:H7 str. Sakai DNA, complete genome 
    

    凡應該是

    >BA000007 
    

    所以......如果FASTA文件名爲abc123.fa,然後在FASTA文件中的標題必須> ABC123。 gtf文件中的第一列也必須是abc123。

    請注意,在我的所有通話中,我將基數從BA000007.2更改爲BA000007,並且我重命名了名稱中沒有.2的所有文件。它可能仍然適用.2,但我沒有測試出來(「基本名稱是任何索引文件的名稱,但不包括第一個時間段。」「[tophat manual])(Thank you AM )。最後,我將fasta文件從* .fasta更名爲* .fa。