2011-05-26 17 views
2

我正在開發一個新的服務,將查詢多個優惠(Groupon等..),我想破譯哪個類別屬於此優惠。如何找到哪個類別屬於只有標題的優惠?

例子:

我得到這個稱號:「Acqualina酒店健康博覽會 - Acqualina酒店度假村&溫泉」,我需要找出屬於該提供什麼類別。

我嘗試玩http://www.google.com/insights/search/,但這並不容易,因爲它只接收7個參數(術語),有時我們有複合詞無法分離。

+0

屬於哪個類別?有什麼選擇? – FlyingStreudel 2011-05-26 18:33:48

+0

也許這個exapmle屬於'健康與美容'或'特別興趣' – 2011-05-29 15:30:14

+0

一些選項: 活動和活動 健身 餐飲和夜生活 – 2011-05-29 15:30:47

回答

1

有一些基於Wordnet和搜索距離等有趣的方法,但標準的方法是貝葉斯垃圾郵件過濾器方法。

步驟1:構建一個標題(或標題和正文)的示例集合以及您認爲它屬於哪個類別。更大更多樣化的你讓這一切變得更好。你需要有很多(假設至少有兩位數的數字,但最好有數百個)來自你想要識別的每個類別的不同例子。如果你需要幫助構建這個集合,你可以使用亞馬遜的Mechanical Turk並支付其他人進行分類。

第2步:通過CRM114(http://crm114.sourceforge.net/)或類似的東西運行您的所有示例。如果您想使用雲服務,我認爲Google Prediction API允許使用文本字段。

第3步:要進行測試,請不要讓分類程序看到所有示例。保留一些稱爲超出樣本集的內容,以便測試分類器。對它已經看到的東西進行分類要容易得多,所以你要確保你知道它看不見的例子有多好。一些分類器會自動爲你做這個測試。

祝你好運!

相關問題