我很努力地弄清楚如何開始使用SVD和MovieLens/Netflix類型的數據集來進行評級預測。我非常感謝python/java中的簡單示例,或者所涉及的過程的基本僞代碼。有許多論文/文章總結了整體概念,但我不確定如何開始實施它,即使使用了一些建議的庫。使用SVD和Movielens/Netflix類型數據集的基本僞代碼
據我瞭解,我需要如下轉換我的初步數據集:
初始數據集:
user movie rating
1 43 3
1 57 2
2 219 4
需要轉動是:
user 1 2
movie 43 3 0
57 2 0
219 0 4
在這一點,我是否需要將這個矩陣注入到可用庫提供的SVD算法中,然後(以某種方式)提取結果,還是需要更多的工作?
一些信息我讀過:
http://www.netflixprize.com/community/viewtopic.php?id=1043
http://sifter.org/~simon/journal/20061211.html
http://www.slideshare.net/NYCPredictiveAnalytics/building-a-recommendation-engine-an-example-of-a-product-recommendation-engine
http://www.slideshare.net/bmabey/svd-and-the-netflix-dataset-presentation
..和其他一些論文
一些圖書館:
LingPipe(java)
Jama(java)
Pyrsvd(python)
任何提示都將不勝感激,特別是在基本數據集上。 非常感謝, 奧利
謝謝肖恩,看起來非常棒。我今天要試一試。 – oli 2011-03-15 11:52:18