2011-05-07 222 views
0

我有一個很大的數據集的核苷酸序列(簡單的長字符串),它將轉換成一個充滿字符的104 * 13440矩陣。我的項目迫使我在探索所有可能的狀態/ oppertunities(我不喜歡啓發式和/或篩選)時進行退化字符串匹配。由於數據集非常大,因此手動逐字檢查所有單詞元組是非常令人沮喪和計算複雜的。字符串/字符比較與python中的按位比較

與簡單字符比較相比,將字符轉換爲相應的二進制文件,並使用按位比較實現較小的神經網絡,節省了處理時間和內存消耗?

我使用Python 3

忘了提,字元組是重疊的,有大小不等的15-25字/元組,所以你可以看到的窘境

+0

忘記提及,單詞元組是重疊的,大小範圍從15-25個字符/元組,所以你可以看到兩難的局面。 – SHKT 2011-05-07 14:14:16

+0

不要提出解釋問題的註釋,編輯問題。 – 2011-05-07 14:32:57

+0

@Winston:完成:) – ralphtheninja 2011-05-07 14:45:02

回答

0

將轉換字符 各自的二進制,並執行 使用按位輕微神經網絡 比較保存處理時間和 內存消耗相比, 簡單字符比較?

不。引入像神經網絡這樣複雜的東西來解決字符串比較會花費更長的時間。

如果您想讓代碼更快,我建議將它發佈到http://codereview.stackexchange.com上,那裏的人會告訴您可以做些什麼來使其更快。

+0

@ W.Ewert:注意。如果我跳過神經網絡,只是反覆使用按位比較呢? – SHKT 2011-05-07 14:47:21

+0

@SHKT,我不是100%確定你在想什麼,但是比較字符很快,轉換爲二進制,比較幾乎肯定會變慢。但嚴重的是,獲得關於加快代碼速度的建議的最好方法是將其發佈在codereview – 2011-05-07 14:52:20

+0

@ W.Ewert:好的,感謝您的幫助 – SHKT 2011-05-07 14:53:50