2013-07-31 36 views
0

我對NLP/ML /模式匹配或識別相當陌生。我想知道什麼是匹配基礎上的標題,描述等不同項目EG的最佳途徑:確定匹配算法

如果有3項:

item 1: Title: Belkin bluetooth headset USB - ABD13432 
item 1: Description: This is a bluetooth device with the following specs: 
75 W power, 3.5 mm jack, etc 
item 1: Model NO: ABD13432 
item 1: UPC Code: 000000022221 
item 1: product image: <img1> 

item 2: Title: Belkin headset: 
item 2: Description: This is a device that works on RF, and has 2.5 mm jack with 25 W power 
item 2: Model No: 13432 
item 2: UPC Code: 000022022221 
item 2: product image: <img1> 

item 3: Title: Belkin headset wireless - ABD 13432 
item 3: Description: World's best headphone 
item 3: Model No: ABD-13432 
item 3: UPC Code: 000000022221 
item 3: product image: <img1> 

第1項和第3項是相同的項2是不同。 UPC碼通常是一個很好的指標,如果它是相同的項目,但問題是賣家可以輸入他想要的任何UPC碼。但是,由於賣家可以輸入他想要的任何圖像,圖像匹配不一定是一個好的指標。

+0

這是一個非常具體的問題,因爲我提到了我已經確定的5個屬性。現在我知道我需要包括什麼,但我需要知道如何得到這個實現。他們都是完全不同的問題。 – stealthspy

+0

如果你會閱讀我建議的書,你會完全知道這是如何工作的。附:你還沒有接受我最後的答案。 –

回答

0

在這種特殊情況下,型號和UPC顯然比其他功能貢獻更多的權重。

當項目具有不同的型號或UPC時,可以將短句子的語義相似性作爲您學習算法的另一個特徵。您可能想看看this paper。正如你的情況是在產品/電子商務領域,你可能想要建立你自己的領域語料庫,而不是使用通用的wordnet。