2013-09-29 47 views
0

我以爲我有一個簡單的問題,但不知何故,我無法找到答案的來源....哪些文檔格式可以通過與Railo 4.0打包的Lucene版本進行索引?Railo 4 - Cfindex/Lucene支持哪些文檔格式?

不知何故.doc和.pdf似乎進展順利,但docx和rtf似乎沒有得到索引....是否有一個列表可用的地方?對於不支持的所有格式,通過cfindex獲得該信息的最佳方式是什麼?

 <cfindex 
     collection = "#collection#" 
     action = "update" 
     type = "file" 
     key ="#ABSfilepath#" 
     title="#ABSfilepath#" 
     > 

謝謝!

問題還發布到Railo郵件列表:web link

+0

看起來你還在Railo Google Group上發佈了這個問題。由於Railo人員密切監視該組,因此您比此處更有可能對此處的特定問題得出明確的答案。 –

+0

嗨 - 我同意...只是使用所有可能有幫助的渠道;-) –

+1

當你在多個地方發佈信息時,**提及它並提供鏈接** - 既爲未來的搜索者帶來好處,也讓潛在的回覆者可以檢查如果他們浪費時間重複別人已經在其他地方說過的話! –

回答

0

Railo 4使用Lucene 2.4.1 - 你怎麼看?同樣,您可以告訴Railo使用的所有第三方軟件的版本:找到JAR文件(位於lib/ext目錄中),打開該存檔文件(使用7-zip或同等文件),然後查看META-INF/MANIFEST。 MF,你找到了這樣的內容:

規格 - 標題:Lucene的搜索引擎:核心 規格,版本:2.4.1 規範廠商:Apache軟件基金會 實現-標題:org.apache.lucene 實施版本:2.4.1 750176 - 2009-03-04 21:56:52 實施 - 供應商:Apache軟件基金會

這似乎是一個很老的版本,看起來不像Apache Lucene website上有任何文檔。 (它可能可能通過替換相關JAR來升級Lucene,但這也可能導致依賴性問題;請自行承擔風險。)

由於Lucene網站沒有幫助,所以搜索「lucene 2.4」。 1可轉位文件」帶回a pertinent question about v2.3.2這問:

不Lucene的Java支持擴展*的.docx,* .PPTX,* .MPP即 的Microsoft Windows 2007文檔的解析?

與響應:

Lucene的實際上並不支持任何文檔類型。 會發生什麼情況:某些程序用於將文件解析爲可索引流 ,並對該流進行索引。過去曾經是POI。

好的,假設仍然準確,Lucene不控制文件類型,Apache POI

檢查的JAR告訴我們Railo 4.0使用Apache POI V3.8和看POI changelog顯示,.DOCX支持V3.5抵達

所以,您的.docx文件應該以一起支持其他MS Office格式。如果它絕對沒有被編入索引,那麼您可能需要確定它是POI問題還是Lucene問題或Railo問題 - 使用.doc和.docx文檔創建簡單的可重複測試用例可能是一個很好的第一步。

除此之外,您將需要熟悉Lucene/POI的人建議 - 可能或不會包含將包含可能的索引/檢索錯誤的詳細信息的日誌文件,或直接與Lucene交互的方式(不通過Railo/cfindex)可以幫助確定問題所在。

+0

嗨,彼得 - 謝謝你的廣泛答覆。我需要深入瞭解爲什麼特定的文件格式沒有被索引和其他文件格式。 如果有人需要具體的Lucene/POI有關測井等的知識......請! –