2012-09-12 95 views
0

首先,我必須指出,我的意思是文檔羣集是一種數據挖掘技術,而不是工作負載羣集或類似的東西。Solr中的羣集文檔

從一開始,我會說我有什麼:

  • 我得到的文件所有的時間。我們假設這些都是新聞(這很相似)。
  • 每當我收到新的「新聞」批次時,我都應該將它們添加到Solr索引並獲取該文檔的羣集信息。將這些信息存儲在數據庫中(所以我應該知道每個文檔的集羣)。
  • 我不能等待羣集定義服務/程序不時啓動,但它應該即時定義羣集。
  • 我希望能夠在一段時間內獲得集羣(例如,我想僅爲一個月前裝載的文檔搜索集羣)。
  • 我每天會有成千上萬的新文檔,總體基數達數百萬。

很久以前,我一直在使用一些庫(不記得它的名字),它接收到文檔作爲輸入,並導致集羣ID,如果它認爲它是一個新集羣,那麼它創建一個,等等。但它運行緩慢(我甚至不記得它的名字)。

我發現了一本關於Mahout的書,但仍然無法弄清楚我該讀什麼以及我想要什麼。而且,也許,Solr/Mahout不可能爲Solr編寫自己的插件。

我會很感激任何想法,建議如何建立這樣的系統。

感謝,提前

回答

0

我不認爲你需要任何類型的自定義Solr的插件。這是因爲新文檔的分類可以在「新聞」的正常索引過程中確定,因此您可以將其作爲普通字段添加到每個Solr文檔中。

當談到使用Mahout進行聚類和分類時,我認爲Mahout in Action這本書是一個很好的開始。

乾杯。

+0

是的,我正在閱讀那本書一段時間,但仍需要一些共享經驗,才能把它算入數量。 – elgato

+0

但是你應該問一些更具體的問題 - 你的數據是怎麼樣的 - 聚類/分類等的信息基礎是什麼...... – pagid