Solr中的羣集文檔

首先，我必須指出，我的意思是文檔羣集是一種數據挖掘技術，而不是工作負載羣集或類似的東西。Solr中的羣集文檔

從一開始，我會說我有什麼：

很久以前，我一直在使用一些庫（不記得它的名字），它接收到文檔作爲輸入，並導致集羣ID，如果它認爲它是一個新集羣，那麼它創建一個，等等。但它運行緩慢（我甚至不記得它的名字）。

我發現了一本關於Mahout的書，但仍然無法弄清楚我該讀什麼以及我想要什麼。而且，也許，Solr/Mahout不可能爲Solr編寫自己的插件。

我會很感激任何想法，建議如何建立這樣的系統。

感謝，提前

2012-09-12 elgato

我不認爲你需要任何類型的自定義Solr的插件。這是因爲新文檔的分類可以在「新聞」的正常索引過程中確定，因此您可以將其作爲普通字段添加到每個Solr文檔中。

當談到使用Mahout進行聚類和分類時，我認爲Mahout in Action這本書是一個很好的開始。

乾杯。

2012-09-13 07:44:57 pagid

是的，我正在閱讀那本書一段時間，但仍需要一些共享經驗，才能把它算入數量。 – elgato

但是你應該問一些更具體的問題 - 你的數據是怎麼樣的 - 聚類/分類等的信息基礎是什麼...... – pagid

相反，一箇舊的帖子，但讓我回應，你可以使用carrot2 http://project.carrot2.org/index.html solr結果聚類。這總是在飛行中。

2014-01-07 14:36:52 Ganesh

回答