我是apache solr用戶,大約一年。我用solr進行簡單的搜索工具,但現在我想用5TB數據的solr。當我根據我使用的過濾器進行索引時,我假設5TB數據將爲7TB。然後我將每小時添加近50MB的數據到同一個索引。Apache Solr可以處理TeraByte大數據
1-使用單個solr服務器和5TB數據有什麼問題。 (無碎片)
A-能SOLR服務器響應在可接受的時間
B-什麼是對7TB指數50MB數據的commiting預期的時間查詢。
c-是否有索引大小的上限。
2 - 什麼是您所提供的
A-我應該多少碎片使用
B-我應該使用Solr的核心
C-的建議你提供的提交頻率是多少? (爲1小時OK)
3-有沒有對這種大數據
的任何測試結果沒有可用5TB的數據,我只想估計會是怎樣的結果。
注意:您可以假定硬件資源不是問題。
給你一個問題。假設你正在索引5TB的原始數據,爲什麼你認爲它會增長到7TB?我是否應該將這意味着您要在索引中存儲完整的文檔內容,而不僅僅是存儲搜索字段?如果是這樣,我建議只存儲您在Solr中搜索所需的內容。原始文件本身屬於別處。 – rfeak 2012-01-14 04:10:02