0

我們正在考慮基於大規模數據的推薦系統,同時也在尋找專業的方式來保持動態數據庫結構以更快的速度工作。我們考慮一些替代方法。一種是保持在正常的SQL數據庫中,但與使用普通文件結構相比,速度會更慢。其次是使用nosql圖形模型DB,但它也與我們使用的算法不兼容,因爲我們不斷將數據拉入矩陣。我們認爲最後的方法是使用普通文件來保存數據,但由於沒有查詢方法或編輯器,因此很難跟蹤和觀察更改。因此有不同的方法和利弊。你會選擇什麼,爲什麼?推薦系統處理大規模動態數據的最有效方法是什麼?

回答

0

我不知道爲什麼你提到的「文件」和「文件結構」這麼多次,所以也許我失去了一些東西,但對於高效的數據處理,你顯然不希望存儲在文件中的東西。將數據讀取/寫入磁盤的成本很高,並且很難找到某種方法來查詢高效靈活的文件系統中的文件。

我想我會與已經不建議一開始的產品:

http://mahout.apache.org/

您可以從不同的算法來挑選您的數據用於生產建議運行。

如果你想自己做,也許混合方法是有效的?您仍然可以使用圖形數據庫來表示關係,但是然後每個節點/頂點可以是指向文檔數據庫或關係數據庫的指針,其中將存在數據的更「完整」表示。

相關問題