Q

Solr + DIH + Tika：索引大量的文件，如何處理刪除的文件？

2012-11-13 41 views 2 likes

2

我有大量的PDF/Word/Excel /等。文件索引（現在40GB，但在某些monhts可能高達1000GB），我正在考慮使用Solr，DataImportHandler和Tika。我已經閱讀了很多關於這個主題的話題，但是還有一個問題，我仍然沒有找到解決方案：如果我索引所有文件（完整或增量導入），請刪除文件系統中的文件，然後重新索引（與增量導入），那麼與該文件相對應的文檔將不會從索引中刪除。Solr + DIH + Tika：索引大量的文件，如何處理刪除的文件？

這裏有一些possibilites：

做一個完整的進口。但我想盡可能地避免這種情況，因爲我認爲它可能非常耗時（幾天，但不是很重要）和帶寬消耗（主要問題，因爲文件位於共享網絡驅動器上）。
實現一個腳本，用於驗證索引中的每個文檔是否存在相應的文件（帶寬消耗少得多）。但是我不知道我是否會在Solr內部或外部進行此操作，以及如何進行。

您有任何其他想法或執行第二種解決方案的方法嗎？提前致謝。

一些細節：

我會用FileListEntityProcessor的「newerThan」選項做增量導入。
如果我存儲文檔被索引的日期，它不會幫助我，因爲如果我沒有在最後一次導入中索引一個文檔，可能是因爲他已被刪除或者因爲它沒有更改（增量導入）
我有存儲和未存儲的字段，所以我不認爲使用Solr 4.0的新可能性來更改文檔中的僅一個字段可能是一個解決方案。

2012-11-13 Vincent Ardiet

A

回答

2

你有沒有想過使用文件系統監視器來捕獲刪除和更新索引？

我認爲apache.commons.io支持。
檢出apache.commons.io.monitor包，FileAlterationObserver和FileAlterationMonitor類。

2012-11-13 12:07:08

相關問題