我有一個字符串與另一組字符串進行比較,需要得到這兩個相等的分數(百分比)(例如:一對一:100%,完全不同:0%)。但問題是這些字符串是由日文字符組成的(日文句子沒有空格)。有時候它包含一些數字字符(例如:2毫克的克重)。字符明智的句子匹配
什麼是最合適的方式來執行此操作?
我有一個字符串與另一組字符串進行比較,需要得到這兩個相等的分數(百分比)(例如:一對一:100%,完全不同:0%)。但問題是這些字符串是由日文字符組成的(日文句子沒有空格)。有時候它包含一些數字字符(例如:2毫克的克重)。字符明智的句子匹配
什麼是最合適的方式來執行此操作?
日文字符仍然是Unicode。
使用像Levenshtein distance這樣的標準字符串比較算法之一。
除了其他評論之外,如果您計劃將漢字與其平假名相當,那麼事情會變得非常複雜。在比較之前,您可能需要將這些字符串拼音成romaji或代表性標記。
你想要「這是一個句子」,與85%的「這不是一個句子」相匹配 - 或者你只是比較「指數n處的字符與另一字符串中的指數n處的字符」,這使得我的樣本30%的比賽? – 2011-04-29 07:22:27