2011-07-05 60 views
3

我想知道是否可以配置Sitecore的Lucene搜索引擎來索引PDF或Word文檔?我在本文檔(http://sdn.sitecore.net/upload/sitecore6/65/sitecore_search_and_indexing_sc60-65-a4.pdf)上查看了Sitecore支持網站,但它提到了創建一個文件搜尋器類,這向我暗示,只有通過編寫自定義代碼才能實現此目的。如果我需要編寫自定義代碼來做到這一點,我是否也需要有一些API來從PDF文檔中提取文本內容?在PDF或Word文檔中進行Sitecore文本搜索

回答

3

我最近不得不在我的一個項目上做類似的事情。 看看How to index Word 2003, 2007 and 2010 documents using Lucene.NET

我結束了創建該處理的MS Office文檔(XP,2003,2007和2010格式)和PDF文檔的自定義索引:

  • 索引可以使用IFilter的內置XP-2003 MS Office文檔進入OS(假設你使用的是Windows Server 2003或更新版本)
  • 索引2007-2010 MS Office文檔,你需要安裝Microsoft Office 2010 Filter Packs
  • 索引PDF文檔我強烈建議使用Foxit PDF IFilter。它不是免費的,但比Adobe PDF IFilter做得更好。

注:不要浪費與Adobe PDF IFilter的你的時間:它無法讀取有效的PDF文件,併爲很多慢。福昕IFilter旨在充分利用多核CPU,並在大型文檔上執行得更好。