2011-08-16 41 views
0

我試圖解決的問題是爲我的數據找到正確的相似性度量,rescorer啓發式和過濾級別。 (我使用'過濾級別'來表示用戶或項目必須與它關聯以將其納入生產數據庫的評分數量)。Mahout日誌似然相似性度量行爲

設置
我正在使用mahout的味道協同過濾框架。我的數據以三元組形式出現,其中項目的評分包含在集合{1,2,3,4,5}中。我在logLikelihood相似性度量標準之上使用了一個基於itemBased的推薦器。我篩選出生產數據集中少於20個項目的用戶。 RMSE看起來不錯(1.17ish),並且沒有數據上限,但有一個奇怪的行爲是不希望的,並且出現類似錯誤的情況。

問題

First Call調查 - 生成與來自用戶的信息 '自頂項目' 列表中。要做到這一點我用,我所說的,一個中心總

for i in items 
for r in i's ratings 
    sum += r - center 

where center = (5+1)/2 , if you allow ratings in the scale of 1 to 5 for example 

我用一個居中的總和,而不是平均收視率主要產生頂部的項目列表,因爲我想項目已評級的數量收到的因素納入排名。

第二個電話 - 我要求在第一個電話中返回的每個頂級項目有9個類似的項目。對於我要求的類似物品的每個頂級物品,返回的9個類似物品中有7個是相同的(與爲其他頂級物品返回的類似物品集合相同)!

是時候嘗試一些rescoring?也許將兩個遊戲的相似度乘以(共同評價項目的數量)/ x,其中x被調整(大約50或者開頭)。

在此先感謝小夥子們

回答

0

您所要求的50項類似的一些項目X.然後你看看爲每個50的9個相似的項目,其中大部分是相同的。爲什麼這是令人驚訝的?類似的項目應該與其他項目相似。

什麼是「居中」總和?如果每次計算總和中的項目數量大致相似,則按總和而不是平均數排序仍會給出相對類似的輸出。

你想解決什麼問題?因爲所有這些似乎都與你所描述的推薦系統沒有關係。對數似然相似性甚至不是基於評級。

+0

感謝您的快速回復肖恩! 我試圖解決的問題是爲我的數據找到正確的相似性度量和rescorer啓發式。 對不起,我更新了我的問題,並描述了我所謂的「居中」總和。 關於Log-Likelihood您的反饋非常感謝。我轉而使用LL,因爲GenericItemRecommender在與LL相關的Pearson中使用時必須限制較少的值(因爲允許負權重)。也許我應該改回使用皮爾森,這次實施某種形式的rescorer? –

+0

您的第一個過程主要是構建最受評價項目的列表。你的數據集是小的還是稀疏的?如果是這樣,我可以想象,只有最受評價的項目往往與其他項目具有任何明確的相似性,因爲稀疏。這可以解釋爲什麼你一遍又一遍地看到相同的物品。這仍然沒有使用推薦者 - 除非你只使用mostSimilarItems()。 –

+0

感謝您的幫助肖恩。結果問題是我正在用遊戲ID排序相似的物品,而不是相似度值! Wups。 另外,由於我有評級數據,從Log-likelihood轉換到Pearson是一個很好的電話,我認爲(儘管封蓋仍然有點讓我害怕)。 感謝您的協助肖恩! –