ClusterDump在亨利馬烏0.9

我也一邊做文本聚類在亨利馬烏0.9與集羣轉儲一個問題 -ClusterDump在亨利馬烏0.9

https://mahout.apache.org/users/clustering/clusteringyourdata.html

一個簇轉儲的情況下，輸出前k kerms和要不要t指定參數p（pointsDir）。

集羣轉儲的第二種情況是您指定參數p（pointsDir）的位置，您可以獲得與集羣關聯的點。

這兩個輸出都具有相同的確切羣集標識，但情況1中顯示的記錄數量 - 顯示的頂級條款與條件2中出現的記錄數量不同 - 您獲得與羣集關聯的點數。

爲什麼會發生這種情況？我的意思是它的bizzare看到與特定羣集相關的不同點數，並不確定哪一個是正確的？

有沒有人看到過這種情況？

預先感謝您！

來源

2015-02-07 VP10

最後搜索了很多關於網絡上這個問題後，我找到了一個鏈接討論這個問題 -

http://qnalist.com/questions/4874723/mahout-clusterdump-output

雖然什麼引起我注意的是下面這樣的解釋 -

我覺得由羣集報告的向量數（n =）與由-cl 選項實際聚集的點數之間的差異是正常的。 *在最後一次迭代中，根據距離度量和從先前迭代計算得到的聚類中心，將點分配給（通過）（分類爲）每個聚類。（n =）值記錄了該羣集在該迭代中觀察到的點的數量。 *在最後一次迭代之後，每個羣集將爲計算一個新的羣集中心。這會使中心移動一定的數量，小於收斂閾值，但會移動。 *在隨後的分類（-cl）步驟中，將使用這些新中心對輸出點進行分類。這將不可避免地導致導致某些點被分配到（被觀察）（被歸類爲）不同的簇，因此輸出clusteredPoints將反映這個最終分配。在小的，人爲設計的例子中，最終迭代與聚類點輸出之間的聚類可能會更穩定。我認爲羣集報告的數量（n =）個向量與實際由-cl選項聚集的點數之間的差異是正常的。在最後一次迭代中，基於距離度量和根據前一次迭代計算的聚類中心將點分配給（觀察者）（分類爲）每個聚類。（n =）值記錄在該迭代中由「羣集觀察」的點的數量。最後一次迭代後，爲每個羣集計算一個新的羣集中心爲。這會使中心移動一些數量，小於收斂閾值，但會移動。在隨後的分類（-cl）步驟中，將使用這些新的中心對輸出點進行分類。將不可避免地導致某些點被分配給（被觀察）（歸類爲）不同的羣集，因此輸出 clusteredPoints將反映這個最終分配。在小的，人爲設計的例子中，聚類可能會在最終迭代和聚類點的輸出之間更加穩定。

來源

2015-02-08 05:51:08 VP10

ClusterDump在亨利馬烏0.9

回答

相關問題