我正在寫應用程序什麼將被操作超過100Gb文本文檔。每個文件的大小是2Kb-100Kb。Lucene能夠在索引中存儲100GB以上的原始文檔嗎?
起初我應該使用使用DBMS如MySQL或Firebird來存儲原始文檔並在lucene索引中存儲索引。這種方法有一些缺點。例如,數據庫事務對lucene索引一無所知,反之亦然。所以我需要同步它們。
然後,我假設什麼Lucene可以存儲索引的整個文件。所以我需要定期創建索引的備份。但很簡單:我可以用索引複製整個目錄。我使用某種無SQL存儲(即Lucene)。我可能不會使用DBMS。
什麼是最佳實踐:將原始文檔存儲在索引中還是不存在?我真的不想使用DBMS來達到這個目的。可能嗎?
看看solr和彈性搜索,它們也是爲大型商店設計的,也許更容易管理和擴展。 Bart提到的是有效的,但不要將索引中的文檔存儲在可搜索的數據中。 – Dreamwalker