2013-07-12 15 views
0

我是德國海德堡大學的莫里茨。如何縮短基因組序列以確保我的工作流程正常工作?

對於我的學士論文,我有20個大的(25-30 GB)的基因組文件(.txt.gz)由肝細胞癌患者。我的Ubuntu服務器上安裝了Bpipe,我必須嘗試幾種方法。包括

步驟是:

  • 對齊(BWA(變換賽和SAM))抗hg19.fasta
  • 變換(samtols)
  • 重複數據刪除

我的問題是爲了嘗試我的bpipe工作流程,我必須採取30 GB的整個序列,並從頭開始。這需要很多時間。所以我的問題是:

如何縮短一個文件?

我在哪裏可以找到一個可用於測試管道的短序列?

+1

嘗試詢問www.biostars.org – Stylize

回答