我在Solr中使用ExtractingRequestHandler來獲取文檔內容並對其進行索引。它適用於所有Microsoft文檔,但對於PDF,正在提取的內容爲空。我也嘗試了curl的extractOnly = true,並且它也返回空單元。Solr ExtractingRequestHandler爲pdf文檔提供空白內容
我已經在相同的文件上獨立使用了TIKA,並且提取內容非常好。不同之處在於獨立執行操作時,我使用的是Tika附帶的BodyContentHander,而不是Solr使用的SolrContentHandler。有沒有人看到這個?
我真的寧願讓Solr處理它,而不是使用Tika來提取Solr以外的內容。
你試過設置stream.type參數嗎? (即application/pdf) – 2010-01-02 03:29:03
我確實嘗試過。沒有幫助。仍然有這個問題。 – aseem 2010-01-07 06:21:55