我們希望在具有32 GB RAM的單個8核Xeon機器上爲平均大小爲10 KB的1億個文檔建立索引。文檔總大小約爲1 TB。該設置被凍結,並且不會有更新。因此,索引可以針對只讀使用進行優化。大多數查詢都很簡單,像BM25這樣的簡單算法對我們來說已經足夠了。
巨大文檔集的Lucene平均查詢時間
以前有人用Lucene做過這個嗎?如果是,請告訴性能指標,例如每秒查詢次數,索引大小,以及特別意味着查詢的響應時間。
我知道這取決於硬件性能,最好的方法是自己測試一下,但在測試之前我想有其他人的經驗。特別是,我們希望低於1秒的響應時間。單臺機器和1億份文件可能嗎? Sphinx是更快的解決方案嗎?我應該提到,我們不希望分佈式解決方案如Solr。而且,我知道Lucene's nightly benchmarks,但它的集合非常小(4百萬doc),平均查詢時間未報告。
預先感謝。