首先,我必須指出,我的意思是文檔羣集是一種數據挖掘技術,而不是工作負載羣集或類似的東西。Solr中的羣集文檔
從一開始,我會說我有什麼:
- 我得到的文件所有的時間。我們假設這些都是新聞(這很相似)。
- 每當我收到新的「新聞」批次時,我都應該將它們添加到Solr索引並獲取該文檔的羣集信息。將這些信息存儲在數據庫中(所以我應該知道每個文檔的集羣)。
- 我不能等待羣集定義服務/程序不時啓動,但它應該即時定義羣集。
- 我希望能夠在一段時間內獲得集羣(例如,我想僅爲一個月前裝載的文檔搜索集羣)。
- 我每天會有成千上萬的新文檔,總體基數達數百萬。
很久以前,我一直在使用一些庫(不記得它的名字),它接收到文檔作爲輸入,並導致集羣ID,如果它認爲它是一個新集羣,那麼它創建一個,等等。但它運行緩慢(我甚至不記得它的名字)。
我發現了一本關於Mahout的書,但仍然無法弄清楚我該讀什麼以及我想要什麼。而且,也許,Solr/Mahout不可能爲Solr編寫自己的插件。
我會很感激任何想法,建議如何建立這樣的系統。
感謝,提前
是的,我正在閱讀那本書一段時間,但仍需要一些共享經驗,才能把它算入數量。 – elgato
但是你應該問一些更具體的問題 - 你的數據是怎麼樣的 - 聚類/分類等的信息基礎是什麼...... – pagid