Apache Solr可以處理TeraByte大數據

我是apache solr用戶，大約一年。我用solr進行簡單的搜索工具，但現在我想用5TB數據的solr。當我根據我使用的過濾器進行索引時，我假設5TB數據將爲7TB。然後我將每小時添加近50MB的數據到同一個索引。Apache Solr可以處理TeraByte大數據

1-使用單個solr服務器和5TB數據有什麼問題。（無碎片）

2 - 什麼是您所提供的

3-有沒有對這種大數據

的任何測試結果沒有可用5TB的數據，我只想估計會是怎樣的結果。

注意：您可以假定硬件資源不是問題。

2012-01-12 Mustafa

給你一個問題。假設你正在索引5TB的原始數據，爲什麼你認爲它會增長到7TB？我是否應該將這意味着您要在索引中存儲完整的文檔內容，而不僅僅是存儲搜索字段？如果是這樣，我建議只存儲您在Solr中搜索所需的內容。原始文件本身屬於別處。 – rfeak 2012-01-14 04:10:02

如果你的尺寸是用於文本而不是二進制文件（其文本通常會少得多），那麼我不認爲你可以假裝在一臺機器上做到這一點。

這聽起來很像Logly，他們使用SolrCloud來處理這種數據量。

好吧，如果所有文檔都很豐富，那麼索引的文本大小將會小得多（對我來說，它大約是我的起始大小的7％）。無論如何，即使數量減少了，我仍然認爲單個實例的數據太多。

2012-01-12 14:39:24 Persimmonium

但是，每小時50MB意味着每月大約不超過0.75TB，這是0.075TB，這意味着每月75GB – Mustafa 2012-01-13 07:28:17

抱歉，不知道我是如何計算出錯誤的。無論如何，初始數據對於單個solr來說太大了，我認爲... – Persimmonium 2012-01-13 08:31:53

在您看來，單個solr服務器 – Mustafa 2012-01-13 12:00:31

回答