我有各種產品需要決定它們是否相同。一個簡單的例子:與領域知識相匹配的物品
Microsoft RS400 mouse with middle button
應符合Microsoft Red Style 400 three buttoned mouse
但不Microsoft Red Style 500 mouse
沒有別的好的,我可以除了名稱,只是在做它匹配的詞的比例匹配不夠好(錯誤率太高)
我知道域名,所以我可以(例如)手寫一個事實,三個按鈕的鼠標可能與一箇中間按鈕的鼠標相同。我也知道製造商(或者可以對他們進行很好的猜測)。
我到目前爲止唯一的想法是通過嘗試使用手寫規則來減少字符串的大小然後檢查匹配的單詞來匹配它們,但我想知道是否有人有任何想法做這種匹配的最佳方式是否有更好的準確性和精確性(或從哪裏開始尋找),以及是否有人知道在這方面做過的工作? (論文,例子等)。
缺點是有太多的項目,他們改變太頻繁,我不想手動建立製造物品索引。單詞的權重聽起來像是個好主意。我可以嘗試使用該方法的實現。我會看看那本書。 – Yacoby