2014-12-19 24 views
1

我有一組(整數)輸入值和一組期望值,例如,實時數據匹配算法

 
000033335502200008777 
000033335552200007777 
該樣品我具有零輸入在

,即應被忽略,並且一組非零輸入:

 
3333 
555 
22 
7777 

輸入數據可具有

  1. 不同長度組的(550和555)
  2. group shift(0055500 0555000)
  3. 錯誤(但接近)值(8777和7777)

對於每個這樣的組我想有匹配率是這樣的:

 
3333 (100%) 
555 (66.67%) 
22 (100%) 
7777 (75%) 

重要的一點是,我需要每個組的處理之後該比率權利完成:

 
first ratio after 8 values 
second ratio after 11 values 
third ratio after 13 values 
fourth ratio after 21 values 

我應該選擇什麼算法/方法?

預先感謝您!

+0

555' vs 55'你怎麼得到75%?它不應該是66.67%或150%(取決於哪個字符串是您的輸入,哪個是期望)?你有嘗試過什麼嗎? – twalberg

+0

你是完全正確的,它應該是66,67%。一是投入,二是期望。我試圖自己實施這樣的匹配,但沒有成功。這就是爲什麼我正在尋找一些通用方法/衆所周知的算法。 –

+2

這似乎是人們比較基因序列會/使用的那種東西。有你嘗試過的搜索基因模式匹配算法或類似的東西嗎? – TravisJ

回答

1

實際上,計算生物學和遺傳學中有一些算法可能適用於快速數字匹配,也適用於序列模式挖掘領域。

檢查「A FAST模式匹配算法」,由SS謝赫,薩米特K. AGGARWAL Anindya波達N.維文,‡和K.謝卡爾

此外,它看起來像你可以從算法考慮匹配的獲益字符串的組成部分。

一些衆所周知的是Smith-WatermanNeedleman-Wunsch。 對於直接字符串匹配,我建議您查看Jaro-Winkler和Monge-Elkan。