fastq

0熱度

2回答

我想編輯一個排序Fastq文件，並刪除只在某些字符位置重複的行。理想情況下，我將遍歷輸入文件中的每一行，並輸出一個只包含任何唯一字符集的單個實例的文件。如下圖所示。我只想看看前6個字符，後6個字符和每行的中間字符的一部分，並且只保留三個序列的每個獨特組合的一個實例。 AAAAAACCCCCCCCCCCCTTTTTTTTTTCCCCCCCCAAAAAA Start by comparing to

7熱度

4回答

如何讓我的Python腳本更快？

我對Python很新，我寫了一個（可能非常難看）腳本，應該從fastq文件中隨機選擇一個序列子集。一個fastq文件將信息存儲在每行四個塊中。每個塊的第一行以字符「@」開頭。我用作輸入文件的fastq文件是36 GB，包含大約1400萬行。我試圖重寫一個已經存在的使用太多內存的腳本，並且設法減少了很多內存使用。但腳本需要永遠運行，我不明白爲什麼。 parser = argparse.Argume

2熱度

5回答

Python - 檢查兩個巨大的文本文件之間的一致性

所以，這個一直給我一個很難！我正在與巨大的文本文件，並由巨大的我的意思是100Gb +。具體來說，他們在fastq format。這種格式用於DNA測序數據，以及由四條線，像這樣記錄： @REC1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT + !''*((((***+))%%%++)(%%%%).1***-+*

1熱度

1回答

在整個目錄中使用Biopython SeqIO.convert

我有51個文件，包含我想在Windows中使用Biopython腳本從fastq轉換爲fasta的宏基因組序列數據。模塊SeqIO.convert很容易轉換個別指定的文件，但我無法弄清楚如何轉換整個目錄。這並不是真的有太多的文件需要單獨做，但我正在努力學習。我是Biopython的新手，請原諒我的無知。 This convo很有幫助，但我仍然無法將目錄從fastq轉換爲fasta。下面的代碼我

0熱度

1回答

Python完成腳本後掛起

我遇到了一種我從未見過的奇怪的Python行爲。我運行下面的代碼： from __future__ import print_function, division import itertools import sys R1_file = sys.argv[1] R2_file = sys.argv[2] out_stats = sys.argv[3] def grouper(i

0熱度

1回答

FastqGeneralIterator輸出

我正在使用FastqGeneralIterator，但我發現它從fastq文件的第一行刪除了@並且也刪除了第三行（它刪除了整個第三行）的信息。我加了@第1行以下列方式： for line in open("prova_FiltraN_CE_filt.fastq"): fout.write(line.replace('SEQ', '@SEQ')) 我也想加入3號線，以+開始，後面還有什麼。例

0熱度

1回答

來自vcountPattern的正確命中的提取序列R

我進行了小RNA測序並嘗試分析結果fastq文件。首先，我使用ShortRead包導入的文件的fastq成R，並轉換爲DNAstringSet reads <- readFastq("test.fq") seq <- sread(reads) 要查找讀取包含序列的特定字符串中，我使用vcountPattern從Biostrings庫。爲了我的分析目的，我必須允許突變和插入。 hit <-v

0熱度

1回答

unicode的錯誤 - 蟒蛇3.4.2

我想讀的fastq文件，但我不斷收到以下錯誤：（Unicode的錯誤）「unicodeescape」編解碼器不能解碼位置18字節 - 19：截斷\ UXXXXXXXX逃脫我用下面的代碼： file = open(r'C:\Users\jim\Documents\samples\3009_TGACCA_L005_R1_trimmed.fq\3009_TGACCA_L005_R1_trimmed.

0熱度

1回答

更改fastq標題時出錯，並用BioPython寫回

我試圖用postfix/1和/ 2更改fastq標題，並將其寫回新的fie。不過，我得到這個錯誤： No suitable quality scores found in letter_annotations of SeqRecord 有什麼辦法解決這個問題嗎？我是否需要修改質量得分信息以匹配已更改的fastq頭？ import sys from Bio.Seq import Seq fr

0熱度

2回答

將GNU並行與嵌套for循環和多個變量結合起來

我在destdir中有n個文件夾。每個文件夾包含兩個文件：* R1.fastq和* R2.fastq。使用這個腳本，它將逐個完成作業（bowtie2）並在destdir中輸出{子文件夾的名稱} .sam。 #!/bin/bash mm9_index="/Users/bowtie2-2.2.6/indexes/mm9/mm9" destdir=/Users/Desktop/test/outdi