fastq

    1熱度

    3回答

    我正在嘗試一次讀取fastq文件的四行。文件中有幾行。但是當我把我的代碼,我得到這個: Traceback (most recent call last): File "fastq.py", line 11, in line1 = fastq_file.readline() AttributeError: 'str' object has no attribute 'readline' 這是我的代

    0熱度

    3回答

    我有36-nt這樣讀取:atcttgttcaatggccgatcXXXXgtcgacaatcaa在fastq文件 中,XXXX是不同的條形碼。我想在準確的位置(21到24)搜索文件中的條形碼,然後打印序列中最多3個不匹配的序列,而不是條形碼。 例如: 我有條碼:aacg 搜索該位置21之間的條碼,以24 FASTQ文件,允許3個錯配像的順序: atcttgttcaatggccgatcaacggtc

    2熱度

    2回答

    背景: Python 2.6.6在Linux上。 DNA序列分析流水線的第一部分。 我想從已安裝的遠程存儲器(LAN)讀取可能的gzip文件,如果它是gzip的;將它壓縮到一個流(即使用gunzip FILENAME -c),如果流(文件)的第一個字符是「@」,則將整個流路由到一個過濾程序,該過程程序在標準輸入上接受輸入,否則只需將其直接輸入到文件本地磁盤。我想盡量減少從遠程存儲中讀取/查找文件的

    0熱度

    2回答

    我有這個巨大的(61GB)FASTQ文件,我想創建一個隨機子集,但是我無法加載到內存中。 FASTQ的問題是每四行都屬於一起,否則我只會創建一個隨機整數列表,並只將這些整數的行寫入我的子集文件。 到目前爲止,我有這樣的: import random num = [] while len(num) < 50000000: ran = random.randint(0,27000000

    4熱度

    4回答

    我將首先解釋我的問題,因爲了解我想要什麼非常重要:-)。 我正在寫一個使用幾個外部工具來執行幾個基因組數據分析的python編寫的管道。其中一種工具適用於非常大的fastq文件,最後不再是純文本文件。 通常情況下,這個fastq文件是gzipped,並且由於它們是純文本,因此壓縮率非常高。大多數數據分析工具可以處理gzip文件,但我們有幾個不能。所以我們在做的是unzipp文件,與他們合作,並最終

    0熱度

    1回答

    我構建了一些代碼,用於從fastq文件中檢索PHRED得分,將它們全部放入單個列表中,然後將列表傳遞給另一個函數。它看起來像這樣: def PHRED_get(): temp_scores = [] all_scores = [] fastq_location print("Building PHRED score bins...") for se

    0熱度

    2回答

    我是編程新手,在嘗試製作自己的fastq masker時遇到了麻煩。第一個模塊應該用+修剪線條,將序列標題(以>開頭)修改爲行號,同時保持序列和質量線(分別爲A,G,C,T線和Unicode分數) 。 class Import_file(object): def trim_fastq (self, fastq_file): f = open('path_to_file_a', 'a'

    1熱度

    1回答

    我的問題是我正在寫一個bash腳本。我需要爲名爲STAR的工具指定輸入文件,這是生物信息學使用的對準器。它有一個標誌--readFilesIn。在我的情況下,這需要兩組多個文件(fastq文件)逗號分隔,兩組由空格分隔;輸入的樣子: STAR [OPTIONS] --readFilesIn fq_r1_1,fq_r1_2,fq_r1_3 fq_r2_1,fq_r2_2,fq_r2_3 由於每一

    1熱度

    1回答

    我必須處理一個大文件,並且一直在閱讀有關並行命令,以便在使用sed,sort等時嘗試使用多於1個核心處理器。所以我首先想改變每四個的第一行(因爲這種文件的命名約定--FastQ格式)。 例如,這將是一組4個,我想修改第一行: cat sbcc073_pcm_ill_all.musket_default.fastq | head -4 @HWUSI-EAS1752R:29:FC64CL3AAXX

    3熱度

    2回答

    取我做一些shell腳本的內容。 我用這種結構用於創建新變量: eval ${ARG}_ext=fastq ,因爲這樣我就可以直接使用這些新創建的變量這樣它的工作原理相當不錯: $file_ext 現在我要指派值到被稱爲擴展名的變量: extension= 指定的值e應該是變量$ {ARG} _ext中的一個。請,我該怎麼做? 我已經試過 extension=eval ${ARG}_e