我是Apache Mahout新手。我試圖瞭解哪些命名向量屬於哪個集羣。互聯網上的大量資源都是關於文本文檔的,並使用命令clusterdump。但是,我的數據集非常龐大,運行該命令始終導致Java內存不足異常。此外,我不認爲使用clusterdump會回答我的問題。每個Mahout羣集中的向量
我想知道這是否是可以理解不外乎其命名爲載體屬於哪個使用目錄clusteredPoints
和clusters-[0-9]+
和clusters-*-final
如果有幫助,用戶到目前爲止,我已經形成簇羣基礎對他們的歌曲聆聽習慣。爲此,我最初使用NamedVectors創建了一個序列文件,其中NamedVector的名稱是userId,Vector本身是一個包含用戶收聽歌曲標籤權重的雙數組(下面的示例)。
AR2TSU61187FB5C4F0 0.5 0.2 0.7 0.0 0.0 0.1 0.0 0.0 ...
...
...
...
然後,我成功運行k-means。我在目錄clusteredPoints中輸出(大約88個文件,其名稱如part-m-00088)以及我認爲包含質心的目錄集羣。
感謝您的幫助!