我有一個有趣的遺傳學問題,我想在本機Python中解決(沒有任何標準庫)。這是爲了使解決方案在任何計算機上都可以很容易地使用,而不需要用戶安裝額外的模塊。本地Python中的DNA序列對齊(無biopython)
這。我從454新一代測序運行中獲得了100,000個DNA序列(高達20億個)。我想修剪四肢,以移除兩端可能存在的引物,包括正常序列和有義序列。例如:
seq001: ACTGACGGATAGCTGACCTGATGATGGGTTGACCAGTGATC
--primer-1--- --primer-2-
引物可以是本一次或多次(一個右後等)。正常的意義總是在左邊,而在右邊則是相反的。因此,我的目標是找到引物,剪切序列,使得只剩下無引物的部分。爲此,我想使用已經在本地Python中實現的經典對齊算法(即:Smith-Waterman)(即:不通過biopython)。我意識到這可能需要一段時間(長達數小時)。
注意:這不是一個直接的「單詞」搜索,因爲序列和引物中的DNA都可以因多種技術原因而「突變」。
你會用什麼?
模糊正則表達式的鏈接這是一個商業項目,大學研究項目,還是僅僅爲了好玩? – 2010-03-10 23:04:32
@Christian Oudard這是一個大學研究項目。 – Morlock 2010-03-11 15:09:01