1

我根據用戶的點擊行爲上的個性化新聞推薦引擎的工作。我的功能將是預定義的新聞類別(如政治,體育等)。二值化的收視率 - MovieLens數據集

每當用戶點擊文章中,我建立一個基於這篇文章/更新的用戶配置文件,然後從推薦文章池另一篇文章。

關於這個系統的評估,我需要一個包含二進制用戶 - 項目交互的數據集(用戶點擊推薦的文章或沒有) - 我找不到適合這個特定上下文的數據集。我想要做的是,二元化Movielens數據集,然後計算精度和召回。

我在MovieLens數據集中的實際操作如下:如果用戶對某個項目的評分大於此用戶的平均評分,則我將其指定爲1的二進制評分,否則爲0。

這是方法來評估這種類型的系統正確的方式?

回答

2
  1. 二值化沒有什麼區別。精確度和召回率是相對的,因此有人評分是你所需要的。對於「良好」評級的算法對於測試目的是沒有意義的。
  2. epinions有兩個數據集,一個是收視率,其他二進制信任。
  3. 使用MAP @ k對某些建議的平均精確度。這將考慮到一組建議中的排名,這是否定的,懷疑它們將如何使用。

BTW已經有在做這個開源的推薦,並允許混合多個事件/動作/指標,也可以使用內容相似here。它基於PredictionIO的框架,基於Spark。