2012-09-04 31 views
0

我想找到新的和已知的RNA和轉錄本,大小約爲10 KB。如果序列在ensembl和UCSC瀏覽器中沒有很好地註釋,那麼使用生物信息學工具開始時最簡單的方法是什麼?是否將EST和RNA測序數據拼接成一種選擇?我是生物信息學的新手,你的建議對我很有用。在一個地區發現RNA和信息

在此先感謝

+0

交叉發佈在Biostars上:http://www.biostars.org/post/show/52292 – Pierre

回答

1

我對究竟是什麼你想要的最終產品或輸出看起來像一個有點不清楚。但我可能會建議做多個序列比對並尋找那些得分高的人。如果這個10KB的序列有一些已知的序列,但它們不會完全匹配,所以我認爲你需要一個能夠給你對齊分數而不僅僅是簡單匹配的程序。我使用Perl結合Clustal來進行對齊。基本上,您需要根據這些文件格式的各自慣例製作帶有10KB序列和已知感興趣序列的.fasta或.aln文件。如果你不太懂編程,你可以使用clustal的GUI版本。如果你想使用Perl,下面是我爲對齊.fasta文件的整個目錄而編寫的腳本。它可以一舉執行很多路線。注意:您必須在最後一行(系統調用)中編輯clustal可執行文件路徑以匹配其在計算機上的位置,以使此腳本正常工作。

#!/usr/bin/perl 


use warnings; 

print "Please type the list file name of protein fasta files to align (end the directory path with a/or this will fail!): "; 
$directory = <STDIN>; 
chomp $directory; 

opendir (DIR,$directory) or die $!; 

my @file = readdir DIR; 
closedir DIR; 

my $add="_align.fasta"; 

foreach $file (@file) { 
my $infile = "$directory$file"; 
(my $fileprefix = $infile) =~ s/\.[^.]+$//; 
my $outfile="$fileprefix$add"; 
system "/Users/Wes/Desktop/eggNOG_files/clustalw-2.1-macosx/clustalw2 -INFILE=$infile -OUTFILE=$outfile -OUTPUT=FASTA"; 
} 
0

你有一臺Linux服務器或計算機或者是你依靠Web和基於Windows的程序?

爲了排列RNA-seq讀數,人們通常使用拼接讀取對齊方式(如Tophat),儘管BLAST也可能起作用。

最初我寫了很長時間的迴應,解釋瞭如何在Linux中做到這一點,但我剛剛意識到Galaxy對初學者來說可能是一個更簡單的解決方案。 Galaxy是一個在線生物信息學工具,具有非常友好的用戶界面;它特別爲初學者設計。你可以註冊並在本網站登錄:https://main.g2.bx.psu.edu/

有關於如何做的事情(見「幫助」菜單),但我的基本工作流程爲您的實驗會去像這樣的教程:

  • 登錄銀河
  • 上傳RNA-seq讀數,EST讀數和10K基因組序列
  • 在左側菜單中,單擊展開「NGS-RNA測序」,然後單擊「Tophat for Illumina(假設您的RNA-seq讀取是Illumina fastq讀取)「
  • 校準您的RNA -seq使用Tophat讀取,請確保選擇您的10K序列作爲參考基因組。
  • 嘗試將您的EST讀取與其中一個程序對齊。我不確定這將會是多麼成功,但Tophat並非設計用於處理長序列,因此您可能必須有一點戲劇性或者有點創意才能使其發揮作用。
  • 根據您的RNA-seq閱讀和/或EST序列,使用袖釦爲新基因模型創建註釋。

關於查看輸出,我不確定在Windows上有什麼可用的自定義參考序列,您可能需要做一些研究。對於Linux/Mac,我推薦IGV。