我目前索引維基百科轉儲(實際上是一個從2012年開始,但格式是一樣的,不管),想了解性能成本(規模及處理時間)。Lucene的維基百科轉儲
我使用Lucene的Java 4.x版和存儲索引中的所有垃圾場。我在一臺配有i5處理器和8 GB RAM的機器上工作。我剛剛完成索引5000個創建索引的文章,大小爲5GB,耗時約10分鐘。
這意味着3.5萬篇文章,這將是一個3.5 TB指數,它會帶我5天左右,如果索引時間是線性的(這是不是)。我不知道是否因爲原始維基百科轉儲文件僅僅是35 GB是正常的...
「Lucene的新版本」 是指4.8?我目前有4.2,以確保與Luke的兼容性(我喜歡用它在索引中徘徊......) – RalfB
如果你的版本是'4.2',那麼我認爲你已經有了尺寸增強,這意味着'3.5 TB '增強的尺寸。 – Salah