我進行了小RNA測序並嘗試分析結果fastq文件。來自vcountPattern的正確命中的提取序列R
首先,我使用ShortRead包導入的文件的fastq成R,並轉換爲DNAstringSet
reads <- readFastq("test.fq")
seq <- sread(reads)
要查找讀取包含序列的特定字符串中,我使用vcountPattern從Biostrings庫。爲了我的分析目的,我必須允許突變和插入。
hit <-vcountPattern("TCTGCATTTAAGGCAAGTT", seq, max.mismatch=5, with.indels=TRUE)
我可以在這裏做的是數數的讀取包含 「TCTGCATTTAAGGCAAGTT」
sum (hit)
返回
[1] 11500
因此,有11500序列讀取包含「TCTGCATTTAAGGCAAGTT」
但在此之上,w我想要的帽子是從fastq文件中提取對應於11500次讀取的實際序列。
我該如何做到這一點?
hit
如果我只是這樣做,它會給出一堆'0',少量'1',很少'2'。所以我相信這基本上是一個對應於每次閱讀中點擊次數的向量。
我試圖使用這些信息提取序列信息,但無法實現。
任何幫助被讚賞!
供參考:用戶正在使用Bioconducter軟件包「ShortRead」https://darrenjw.wordpress.com/2010/11/29/a-quick-introduction-to-the-bioconductor-shortread-package-for-the-分析-的-NGS-數據/。除非你能給我們一個玩具fq文件,否則不容易複製這些代碼。序列分析知識在這裏很有用。 – Sean
親愛的霍姆斯,我準備了一個玩具fastq文件,您可以從這裏下載[link](https://drive.google.com/file/d/0ByEbUQPY_T_oci1fbDFHSHQ4WUk/view?usp=sharing)。當我使用這個fastq文件嘗試我的腳本時,有3個正面點擊。基本上我只想從fastq文件中提取正面的點擊。我的原始fastq文件的大小比這大200倍。 – gdy
不要介意福爾摩斯,我看着你提供的鏈接,我已經從中得到了答案。 (讀[hit])解決了問題 – gdy