1

我工作的公司擁有數百萬個文件,這些文件在映射到用戶驅動器(例如d:\ to \ server1 \等)的多個網絡驅動器上存儲和共享。

網絡驅動器索引頻率

我想實現的是抓取網絡驅動器,並讓用戶使用全文索引快速找到文件。

我現在索引戰略Lucene.net

但我不知道我應該怎麼常常是索引網絡驅動器,因爲現在有成千上萬的文件索引和更不用說了旅遊網絡數據包。

所以,問題是我應該如何實現索引頻率
我一直在研究谷歌/ Windows桌面搜索索引的頻率如何,但沒有結果。

回答

3

許多答案都包含在您與客戶之間的任何服務級別協議中。如果您的SLA指出搜索結果在X分鐘數內是最新的,那麼您的問題將如何回答您的問題:應該如何實現索引頻率

如果你像我一樣沒有具體的SLA來搜索和索引,那麼你可以更靈活。例如,我爲其業務管理了一個SharePoint搜索服務器。除了我們的網站,我們還索引lot非結構化文件空間中的內容。該服務器支持完整增量爬網。我們計算了幾次增量爬網以估計完成增量爬網需要多長時間。然後,我們在比觀察的經過時間舒適地大的間隔上安排我們的增量爬網。我們計劃在非高峯時段全面爬網的頻率較低。

的細節可能會因您使用的具體索引技術有所不同,但原理是一樣的:

  • 觀察了幾個爬,最好在高峯和非高峯時段,並配置您的爬行時間表比最壞的情況要舒適得多。
  • 爲非高峯時間(例如晚上)安排更多的資源密集型爬網。
  • 如果完整抓取需要幾個小時才能完成,那麼您可能會安排他們在週末。
  • 使用支持增量爬網的技術可以大幅降低高峯時段的帶寬,同時保持索引的新鮮度。

祝你好運!

+0

我錯了,如果我們要索引網絡驅動器,意味着所有用戶的PC都需要抓取驅動器,以便使索引工作? - >在Windows 7中 – 2016-08-02 12:15:19

+0

Hi @EricK。發佈一個完整的問題而不是評論可能會更好地爲您服務;但是,如果我正確理解您的問題,則只有執行索引的計算機需要訪問網絡驅動器才能執行索引任務。當然,訪問該驅動器的任何用戶也必須有權這樣做;但是,這仍然是與建立索引分開的一項活動。 – kbrimington 2016-08-02 20:59:12