2012-11-13 41 views
2

我有大量的PDF/Word/Excel /等。文件索引(現在40GB,但在某些monhts可能高達1000GB),我正在考慮使用Solr,DataImportHandler和Tika。我已經閱讀了很多關於這個主題的話題,但是還有一個問題,我仍然沒有找到解決方案:如果我索引所有文件(完整或增量導入),請刪除文件系統中的文件,然後重新索引(與增量導入),那麼與該文件相對應的文檔將不會從索引中刪除。Solr + DIH + Tika:索引大量的文件,如何處理刪除的文件?

這裏有一些possibilites:

  • 做一個完整的進口。但我想盡可能地避免這種情況,因爲我認爲它可能非常耗時(幾天,但不是很重要)和帶寬消耗(主要問題,因爲文件位於共享網絡驅動器上)。
  • 實現一個腳本,用於驗證索引中的每個文檔是否存在相應的文件(帶寬消耗少得多)。但是我不知道我是否會在Solr內部或外部進行此操作,以及如何進行。

您有任何其他想法或執行第二種解決方案的方法嗎?提前致謝。

一些細節:

  • 我會用FileListEntityProcessor的「newerThan」選項做增量導入。
  • 如果我存儲文檔被索引的日期,它不會幫助我,因爲如果我沒有在最後一次導入中索引一個文檔,可能是因爲他已被刪除或者因爲它沒有更改(增量導入)
  • 我有存儲和未存儲的字段,所以我不認爲使用Solr 4.0的新可能性來更改文檔中的僅一個字段可能是一個解決方案。

回答