2010-07-19 106 views
1

我在我的應用程序中構建推薦系統,我可能會使用apache mahout,我收集一個大數據集,它將在一段時間內收集......所以哪一個在收集某種日誌文件與收集數據庫並在需要時收集它之間花費最少推薦系統數據收集方法

回答

1

Mahout的推薦代碼可以直接從數據庫或文件中讀取 - 如果數據格式合理。它不會讀取一般日誌文件;他們需要翻譯成簡單的CSV或TSV。但它可以讀取任何包含用戶/項目/偏好的表格。

如果你已經把你的數據放到數據庫表中,我會說放在那裏,不要複製它或不必要地導出它。如果可能的話,您可能希望讓Mahout將所有這些內容吸收到內存中。

如果你還沒有存儲這些數據,並且想選擇一個簡單高效的表示方式,那麼我建議你提取用戶/項目/偏好信息並將它們存儲在簡單的CSV文件中,並用gzip壓縮。這些可以很容易地與Mahout一起使用,並且比完整的日誌文件或數據庫更簡單和更緊湊。