2009-06-19 38 views
16

在剛剛閱讀recent article in Wired之後,我很好奇:Netflix獎如此具有挑戰性?我的意思是儘可能以最真誠的方式,我只是對比賽所帶來的困難感到好奇。大多數推薦引擎總體上很難改進?如果是這樣,爲什麼呢?或者,Netflix是否異常難以改善,如果是這種情況,Netflix有什麼特別之處讓它比亞馬遜更具挑戰性?爲什麼Netflix獎如此具有挑戰性?

+0

這是爲什麼呢?關。 – 2009-06-19 11:47:58

+13

@Lucas這是一個關於編程挑戰及其技術細節的問題,因此它與編程相關。我不明白爲什麼這個*不會在SO上。 – 2009-06-19 11:54:08

+2

爲什麼不呢?推薦引擎當然是編程相關的。可能不是最好的問題,但仍然如此。 – dmeister 2009-06-19 11:55:41

回答

13

因爲NetFlix已經有了一個非常好的推薦引擎。如果他們知道如何輕鬆改進它們,那麼現在他們會這樣做。他們的整個商業模式是圍繞着向消費者交叉銷售產品(電影)。推薦算法真的是他們業務的核心。它運作得越好,他們所付出的錢就越多。

2

我想這裏已經寫了一些文章,但我不知道他們在哪裏,所以我只是在這裏解釋它。

當人們購買亞馬遜書籍(例如)時,他們傾向於購買特定類型的書籍,因此可以很容易地推薦其他相同類型的書籍。

有了電影,人們可以做同樣的事情,但人們通常不會將自己限制爲一種流派。人們可以觀看更多種類的電影:恐怖,喜劇,動作,浪漫等。

預測你喜歡這些類型的內容可能很難預測,如果你迄今只租了一部電影,那部電影是一部戲劇。

如果有人想出一個非常聰明的推薦引擎,Netflix可以從中受益非凡。我認爲他們主要是在尋找一種能夠僅基於一部或兩部電影推薦東西的引擎。對Netflix不太瞭解的新客戶如果在早期找到他們喜歡的電影而無需搜索它們,就會有更好的機會。

在我看來,他們已經有一個與亞馬遜相提並論的推薦引擎。我認爲他們希望進一步加強它。

1

我和我的同事參與了它。我沒有強大的人工智能背景,但推薦引擎需要對現有文獻算法(如吉布斯採樣,K方法,最近鄰居等等)有深入的瞭解。我們使用吉布斯採樣,我可以說我們吸收了:)與Netflix已有的相比。

29

推薦系統從那些難以解決問題的困擾:

  • Cold start - 在新的系統或新的用戶,沒有足夠的數據來創建一個建議,一個準確的統計模型。
  • Rating bias - 如果您基於用戶評分的建議,那麼評分的用戶通常會將結果轉向他們的口味。如果你是不喜歡額外評級的人,可能有類似品味的人不喜歡評級,因此他們的意見被排除在推薦之外。
  • 未被評分的項目被評分的可能性較小 - 如果您選擇評分項目,並根據評分對項目進行評分,則未評分的項目將不太明顯,並且很難獲得他們所需的評分影響建議。另一方面,受歡迎的項目具有更高的可見度,更頻繁的評級,因此在推薦中起到更大的作用。
  • Temporal bias - 用戶的評分隨時間變化。通過長期變化,您可以通過在建議中添加時間元素來進行補償。短期變化難以解決。在馬拉松比賽結束後,你可能會給動作片帶來高分。第二天,當你哭泣到Steel Magnolias之後,你可能會暫時偏愛動作片。
  • 不同的動機 - 在item-based recommender systems,你爲你阿姨的生日購買的針織書會歪曲你的建議(如果你不花時間告訴系統不使用它)。你可能會給一個壞孩子的電影高評分,因爲你的孩子喜歡它。

總而言之,這使得推薦系統很難改善過去。一個準確率達到80%的系統看起來很棒,但是在5次之內是錯誤的。這使得他們比一些用戶的價值更麻煩。