我將把Lucene版本從3.5遷移到4.7。 而且我的索引真的很大,我想知道是否值得重新索引它。 大多數情況下,如果表現值得關注,我很感興趣。 有什麼建議嗎?當從lucene 3.x遷移到4.x時,是否值得重新索引
Regards
我將把Lucene版本從3.5遷移到4.7。 而且我的索引真的很大,我想知道是否值得重新索引它。 大多數情況下,如果表現值得關注,我很感興趣。 有什麼建議嗎?當從lucene 3.x遷移到4.x時,是否值得重新索引
Regards
像往常一樣,沒有簡單的答案。
最大的變化是在v4.0中Lucene引入了提供自定義編解碼器/發佈格式的功能。邁克爾·麥坎德利斯(Lucene的作者之一),explains the difference between 3.X and 4.0:
默認情況下,Lucene的使用StandardCodec,其作爲當前穩定分支(3.X)寫入和讀取的 幾乎相同的格式。給定項的 的詳細信息以詞典文件的形式存儲,而文檔和發生該詞的位置則存儲在單獨的文件中。
也就是說,有不同的編解碼器,他們每個人都專注於不同的事情。
This presentation涵蓋了一些發佈格式,並有一些洞察哪種格式針對哪種情況進行了調整。如果你打算留在StandardCodec
,我想你不會選擇重新索引。
考慮使用4.7的IndexUpgrader升級索引,因爲索引格式(發佈格式是精確的)有一些變化,從3.x到4.x. Lucene 4.7的默認編解碼器可能無法讀取Lucene 3.x的索引文件
IndexUpgrader是由Lucene提供的實用程序。 http://lucene.apache.org/core/4_7_0/core/org/apache/lucene/index/IndexUpgrader.html
請提供關於什麼模式,您使用哪個組件,哪些類型的查詢的更多細節? – Mysterion