我有一個很大的數據集的核苷酸序列(簡單的長字符串),它將轉換成一個充滿字符的104 * 13440矩陣。我的項目迫使我在探索所有可能的狀態/ oppertunities(我不喜歡啓發式和/或篩選)時進行退化字符串匹配。由於數據集非常大,因此手動逐字檢查所有單詞元組是非常令人沮喪和計算複雜的。字符串/字符比較與python中的按位比較
與簡單字符比較相比,將字符轉換爲相應的二進制文件,並使用按位比較實現較小的神經網絡,節省了處理時間和內存消耗?
我使用Python 3
忘了提,字元組是重疊的,有大小不等的15-25字/元組,所以你可以看到的窘境
忘記提及,單詞元組是重疊的,大小範圍從15-25個字符/元組,所以你可以看到兩難的局面。 – SHKT 2011-05-07 14:14:16
不要提出解釋問題的註釋,編輯問題。 – 2011-05-07 14:32:57
@Winston:完成:) – ralphtheninja 2011-05-07 14:45:02