我有一組5000萬文本片段,我想從中創建一些集羣。維度可能介於60k到100k之間。平均文本片段長度將是16個字。正如你可以想象的那樣,頻率矩陣相當稀疏。我正在尋找一個軟件包/ libray/sdk,可以讓我找到這些羣集。我曾經嘗試過CLUTO,但這對於CLUTO來說似乎是一項非常繁重的任務。從我的在線研究中,我發現BIRCH是一種可以處理這些問題的算法,但不幸的是,我在網上找不到任何BIRCH實現軟件(我只發現了幾個臨時實現,比如分配項目,缺少任何無論如何)。有什麼建議麼?將數以百萬計的高維數據集羣化爲集羣
3
A
回答
0
0
我想你寧可尋找像all-pairs搜索。
這會給你成對的相似記錄達到所需的閾值。你可以使用多個圖論來提取集羣 - 考慮每一對邊緣。然後提取連接的組件會給你類似單連接集羣的東西,派系會給你完整的連接集羣。
我剛剛發現BIRCH in C++的執行情況。
1
我的教授在Java中提出了BIRCH算法的implementation。用一些內嵌評論很容易閱讀。
3
您可能有興趣查看使用TopSig表示法的Streaming EM-tree算法。這兩個都是我的博士學位。有關大規模文檔聚類的話題。
我們最近在一臺16核機器上集成了7.33億個文檔(http://ktree.sf.net)。索引文件需要大約2.5天,而將它們集中起來需要15個小時。
流式EM樹算法可以在https://github.com/cmdevries/LMW-tree找到。它適用於TopSig生成的二進制文檔向量,可在http://topsig.googlecode.com找到。
我之前在http://chris.de-vries.id.au/2013/07/large-scale-document-clustering.html寫了一篇關於類似方法的博客文章。但是,EM-tree可以更好地進行並行執行,並且可以生成質量更好的羣集。
如果您有任何問題,請隨時通過[email protected]與我聯繫。
相關問題
- 1. 高維數據集羣
- 2. 加載數百萬基於羣集的標記ajax
- 3. 集羣序數據
- 4. 使用pvclust集羣一維數據
- 5. 報廢維基百科,使用集羣管理此數據
- 6. 在Hadoop集羣上編輯數百萬行文件
- 7. kmeans集羣中的集羣錯誤數
- 8. 羣集數據參數
- 9. 維護Cassandra集羣
- 10. 集羣計算
- 11. 使用python和DBSCAN集羣高維數據
- 12. 初始化集羣數據時出錯
- 13. 集羣PostgreSQL的集羣
- 14. 集羣二進制數據
- 15. 集羣定性數據
- 16. 移動postgresql數據集羣
- 17. 數據集羣方法
- 18. 如何使生產數據庫上的羣集PK非羣集?
- 19. 數據庫中的羣集或數據庫中的羣集意味着什麼?
- 20. 將數據庫恢復到新羣集
- 21. 將Redis數據遷移到羣集
- 22. Elasticsearch集羣數據遷移到新集羣
- 23. Jboss 6集羣Singleton集羣
- 24. 爲使用羣集準備數據
- 25. 爲SQL Server集羣準備數據庫
- 26. 可視化羣集
- 27. 集羣初始化
- 28. 掩碼集羣化
- 29. 爲Hadoop集羣
- 30. 如何將數據從CDH3羣集遷移到(不同的)CDH4羣集?
我不確定,因爲我想檢查我的空閒時間,但可以映射減少/ hadoop幫助你嗎? – HRgiger
好吧,我將不得不併行化一個聚類算法,這樣才能工作,我很希望有一些現成的解決方案 – Alexandros
看看R,Python,Java中的文本挖掘...這不是特別的N(#行)或P(#dims)都很大,任何體面的文本挖掘/聚類軟件包都會讓你開始。 – Iterator