我在一些大的(幾百萬行)生物信息數據集工作與一般格式的大的文本文件行比較:行,用蟒蛇
chromosomeNumber locusStart locusStop sequence moreData
我有這種格式的其他文件:
chromosomeNumber locusStart locusStop moreData
我需要做的是將每種文件類型中的一種讀入內存,並且如果上層文件的一行的locusStart位於較低文件中任何行的開始和停止之間,則print要輸出文件1的行。如果該行的locusStart不在啓動和停止之間然後將其打印到輸出文件2.
我正在閱讀中的文件,將它們轉換爲鍵入染色體的字典並將相應的行作爲值。然後我將每個值線分成一個字符串,然後與字符串進行比較。這需要很長時間,我想知道是否有更有效的方法來做到這一點。
謝謝。
這將有助於看到您的實際代碼 – dfb 2011-03-28 20:29:27
老實說,我不明白什麼是指像_upper _文件和_lower _文件 – neurino 2011-03-28 20:29:46
@neurino方面 - 我覺得上下指的是代碼塊的OP。 至於我想我會讀文件2第一,區間進行排序,然後運行文件1個一行一行的問題 - 這完全忽略了chromosomeNumber雖然如此,@ user680895,請澄清一下? – 2011-03-28 20:38:51