我有一個布爾值/二進制值,其中當客戶實際購買產品時找到客戶和產品ID,如果客戶沒有購買它,則找不到。這樣表示的數據集:使用與二進制數據的餘弦相似度 - Mahout
我已經嘗試了不同的方法,如GenericBooleanPrefUserBasedRecommender與TanimotoCoefficient或數似然相似之處,但我自己也嘗試GenericUserBasedRecommender與非中心餘弦相似度,它給了我最高的精度和召回100%和60%。
我不確定在這種情況下使用Uncentered Cosine相似性是否合理,或者這是一個錯誤的邏輯?以及Uncentered Cosine Similairty對這樣的數據集做了什麼。
任何想法將非常感激。
謝謝。
太謝謝你了。我沒有高維問題,因爲我的數據不是那麼龐大,我只有大約3000行,而我正在使用內存計算數據庫SAP HANA。 我也這麼認爲,精度永遠不會是100%,我最關心的總是與數據的表示有關,因爲我擁有所有的偏好1.可以像這樣表示布爾數據,或者應該我包含客戶沒有購買的產品並將其設置爲0?也許你可以爲我提供一個二進制數據集的例子,我真的很感激它。 – user2255207
使用通用推薦器,用戶不與之交互的任何項目都被假定爲0.您只需將交互事件發送到綁定到用戶的推薦器,定期對數據進行訓練,然後通過用戶或項目ID進行查詢。不需要像舊的Mahout代碼一樣的id翻譯,也不需要枚舉項目的所有用戶。這些都是從交互數據中檢測到的。你也可以使用許多事件,甚至用戶配置文件數據。 – pferrel