2011-02-20 14 views

回答

3

這樣做好吧並不容易。谷歌希望能夠做到這一點(「用戶將會看到什麼樣的鏈接」),Netflix(「他們會看重什麼電影」)等等。事實上,你可能會很好地閱讀關於winning entry for the Netflix Prize的註釋。

然後你需要提取一堆功能,就像@ hmason說的那樣。然後你需要一個適當的機器學習算法;你可能需要一個函數approximator(在你嘗試使用你的特性來預測0和1之間的值,其中1是「有史以來最好的推文」,0是「omg誰在乎」)或者一個分類器(你使用的分類器您的功能可以預測它是「好」還是「壞」推文)。

如果你選擇後者 - 這使得用戶培訓變得簡單,因爲他們只需要用「like」來分配推文(混合社交網絡隱喻),那麼你通常會在支持向量機上做得最好,其中存在fairly comprehensive Java library

在前一種情況下,有許多技術可能值得嘗試;如果您決定使用LIBSVM庫,它們也有迴歸變量(即參數估計)。

8

這是一個分類問題,你基本上想要學習一個函數y(x),它可以預測未標記的推文「x」是屬於「有價值的」類還是屬於「無價值的」類。

最棘手這裏位不是算法(樸素貝葉斯只是計數和乘法,很容易的代碼!),但:

  1. 收集訓練數據
  2. 定義最佳特徵集

其中之一,我建議你跟蹤推文,用戶的最愛,回覆和轉推,第二,看看誰寫的推文,推文中的單詞,以及它是否包含鏈接的質量。