(注:標籤應該是tophat2和bowtie2,但我沒有點來創建新的標籤)大廈領結指數衰竭(tophat2,bowtie2)
問候:我使用Tophat2(命令行)分析RNA-seq數據,我遇到一些錯誤。
這裏是呼叫:
tophat2 -o tophat2_results/ -G ref_data/BA000007.2.gtf --transcriptome-index=transcriptome_data/RNA_LBG01b_241_filteredQ indices/BA000007.2 data_files/RNA_LBG01b_241_filteredQ.fastq
以下是錯誤:
[2015-12-29 12:58:33] Checking for Bowtie
Bowtie version: 2.2.4.0
[2015-12-29 12:58:33] Checking for Bowtie index files (genome)..
[2015-12-29 12:58:33] Checking for reference FASTA file
[2015-12-29 12:58:33] Generating SAM header for indices/BA000007.2
[2015-12-29 12:58:33] Reading known junctions from GTF file
Warning: TopHat did not find any junctions in GTF file
[2015-12-29 12:58:33] Preparing reads
left reads: min. length=12, max. length=342, 202732 kept reads (1315 discarded)
Warning: short reads (<20bp) will make TopHat quite slow and take large amount of memory because they are likely to be mapped in too many places
[2015-12-29 12:58:39] Building transcriptome data files transcriptome_data/RNA_LBG01b_241_filteredQ
[2015-12-29 12:58:40] Building Bowtie index from RNA_LBG01b_241_filteredQ.fa
[FAILED]
Error: Couldn't build bowtie index with err = 1
版本信息: 頂禮帽V2.1.0 Bowtie2版本2.2.4的Python 2.7。 10 :: Anaconda 2.4.0(64位)
系統信息: CentOS版本6.7
我怎麼來到這裏和你有我想:
我使用大腸桿菌(登錄:BA000007.2)供我參考基因組可以在這裏找到:http://www.ncbi.nlm.nih.gov/nuccore/BA000007.2
我從合奏獲得我的GTF文件(ftp://ftp.ensemblgenomes.org/pub/release-29/bacteria//gtf/bacteria_9_collection/escherichia_coli_o157_h7_str_sakai/)
我使用bowtie2建造(tophat2調用之前)使我的指數
bowtie2-build -f ref_data/BA000007.2.fasta indices/BA000007.2
我知道,我收到錯誤隸屬於出現在* .gtf文件中的第一列和參考FASTA文件的名稱不同的名稱。如果我理解正確,第一列中的每個條目應該是BA000007.2,其中第一列中的大部分名稱都是「染色體」。爲了解決這個問題,我做了以下內容:
awk '{FS=OFS="\t"}{print "BA000007.2", $2, $3, $4, $5, $6, $7, $8, $9}' pathToGTF/BA000007.2_ensemble.gtf > pathToGTF/BA000007.2.gtf
#Please注意在合奏GTF文件的開頭的註釋建立信息(例如,#基因組建立ASM80120v1!)從awk命令有會產生不良的輸出得到解決
我也改變了FASTA文件的終止從* .fasta爲* .fa
問題:
對於gtf文件的第一列與fasta文件的名稱(BA000007.2,BA000007.2.fa)之間的命名差異所引起的任何問題,我是否正確地將kibosh放在了?
當我細讀在日誌目錄中輸出,有幾個錯誤(g2f.err在ftf_juncs.log &類似的錯誤)與開頭的行:
警告: BA000007:在行無效的起始座標。 2 ena基因-194 2502。 +。gene_id「BAA31757」; gene_version「1」; gene_name「tagA」; gene_source「ena」; gene_biotype「protein_coding」;
確實在gtf文件中有負數,但在Genbank文件中沒有(在vim中快速搜索)。這可能是錯誤的根源嗎?我註釋掉了特定的行並將它們從文件中刪除 - 這兩種方法仍然會導致錯誤。
- 有什麼容易看出,可能會造成錯誤「有ERR = 1 無法建立領結指數」?
我一直堅持這一兩天,所以任何幫助,非常感謝。
會[biostars](https://www.biostars.org)成爲這個問題的更好地方 –
如果沒有人知道答案,您需要自己編譯Bowtie2源代碼。 – SmallChess
@Ismail M,很好的建議,但是,我的問題已經在biostars(101 views,no answers(yet))。 – cer