2012-01-12 52 views
6

我是apache solr用戶,大約一年。我用solr進行簡單的搜索工具,但現在我想用5TB數據的solr。當我根據我使用的過濾器進行索引時,我假設5TB數據將爲7TB。然後我將每小時添加近50MB的數據到同一個索引。Apache Solr可以處理TeraByte大數據

1-使用單個solr服務器和5TB數據有什麼問題。 (無碎片)

  • A-能SOLR服務器響應在可接受的時間

  • B-什麼是對7TB指數50MB數據的commiting預期的時間查詢。

  • c-是否有索引大小的上限。

2 - 什麼是您所提供的

  • A-我應該多少碎片使用

  • B-我應該使用Solr的核心

  • C-的建議你提供的提交頻率是多少? (爲1小時OK)

3-有沒有對這種大數據


的任何測試結果沒有可用5TB的數據,我只想估計會是怎樣的結果。

注意:您可以假定硬件資源不是問題。

+1

給你一個問題。假設你正在索引5TB的原始數據,爲什麼你認爲它會增長到7TB?我是否應該將這意味着您要在索引中存儲完整的文檔內容,而不僅僅是存儲搜索字段?如果是這樣,我建議只存儲您在Solr中搜索所需的內容。原始文件本身屬於別處。 – rfeak 2012-01-14 04:10:02

回答

3

如果你的尺寸是用於文本而不是二進制文件(其文本通常會少得多),那麼我不認爲你可以假裝在一臺機器上做到這一點。

這聽起來很像Logly,他們使用SolrCloud來處理這種數據量。

好吧,如果所有文檔都很豐富,那麼索引的文本大小將會小得多(對我來說,它大約是我的起始大小的7%)。無論如何,即使數量減少了,我仍然認爲單個實例的數據太多。

+0

但是,每小時50MB意味着每月大約不超過0.75TB,這是0.075TB,這意味着每月75GB – Mustafa 2012-01-13 07:28:17

+0

抱歉,不知道我是如何計算出錯誤的。無論如何,初始數據對於單個solr來說太大了,我認爲... – Persimmonium 2012-01-13 08:31:53

+0

在您看來,單個solr服務器 – Mustafa 2012-01-13 12:00:31