2015-02-07 70 views
0

我也一邊做文本聚類在亨利馬烏0.9與集羣轉儲一個問題 -ClusterDump在亨利馬烏0.9

https://mahout.apache.org/users/clustering/clusteringyourdata.html

一個簇轉儲的情況下,輸出前k kerms和要不要t指定參數p(pointsDir)。

集羣轉儲的第二種情況是您指定參數p(pointsDir)的位置,您可以獲得與集羣關聯的點。

這兩個輸出都具有相同的確切羣集標識,但情況1中顯示的記錄數量 - 顯示的頂級條款與條件2中出現的記錄數量不同 - 您獲得與羣集關聯的點數。

爲什麼會發生這種情況?我的意思是它的bizzare看到與特定羣集相關的不同點數,並不確定哪一個是正確的?

有沒有人看到過這種情況?

預先感謝您!

回答

0

最後搜索了很多關於網絡上這個問題後,我找到了一個鏈接討論這個問題 -

http://qnalist.com/questions/4874723/mahout-clusterdump-output

雖然什麼引起我注意的是下面這樣的解釋 -

我覺得由羣集 報告的向量數(n =)與由-cl 選項實際聚集的點數之間的差異是正常的。 *在最後一次迭代中,根據距離度量和從先前迭代計算得到的聚類中心,將點分配給(通過) (分類爲)每個聚類。 (n =)值 記錄了該羣集在該迭代中觀察到的點的數量。 *在最後一次迭代之後,每個羣集將爲 計算一個新的羣集中心。這會使中心移動一定的數量,小於收斂閾值,但會移動。 *在隨後的分類(-cl)步驟中,將使用這些新中心 對輸出點進行分類。這將不可避免地導致 導致某些點被分配到(被觀察)(被歸類爲) 不同的簇,因此輸出clusteredPoints將反映 這個最終分配。 在小的,人爲設計的例子中,最終迭代與聚類點輸出之間的聚類可能會更穩定 。 我認爲羣集報告的 數量(n =)個向量與實際由-cl選項聚集的點數之間的差異是正常的。 在最後一次迭代中,基於距離度量 和根據前一次迭代計算的聚類中心將點分配給(觀察者) (分類爲)每個聚類。 (n =)值記錄在該迭代中由「 羣集觀察」的點的數量。 最後一次迭代後,爲每個羣集計算一個新的羣集中心爲 。這會使中心移動一些 數量,小於收斂閾值,但會移動。 在隨後的分類(-cl)步驟中,將使用這些新的 中心對輸出點進行分類。 將不可避免地導致某些點被分配給(被觀察) (歸類爲)不同的羣集,因此輸出 clusteredPoints將反映這個最終分配。 在小的,人爲設計的例子中,聚類可能會在最終迭代和聚類點的輸出之間更加穩定。

相關問題