Solr ExtractingRequestHandler爲pdf文檔提供空白內容

我在Solr中使用ExtractingRequestHandler來獲取文檔內容並對其進行索引。它適用於所有Microsoft文檔，但對於PDF，正在提取的內容爲空。我也嘗試了curl的extractOnly = true，並且它也返回空單元。Solr ExtractingRequestHandler爲pdf文檔提供空白內容

我已經在相同的文件上獨立使用了TIKA，並且提取內容非常好。不同之處在於獨立執行操作時，我使用的是Tika附帶的BodyContentHander，而不是Solr使用的SolrContentHandler。有沒有人看到這個？

我真的寧願讓Solr處理它，而不是使用Tika來提取Solr以外的內容。

來源

2009-12-30 aseem

你試過設置stream.type參數嗎？（即application/pdf） – 2010-01-02 03:29:03

我確實嘗試過。沒有幫助。仍然有這個問題。 – aseem 2010-01-07 06:21:55

我在解決這個問題之前就處理了這個問題好幾個小時 - 我以非二進制模式打開我的PDF文件，並將它們提供給solr，直到文件中的第一個EOF字符。 Solr仍然會從文件中提取元數據（因爲它出現在PDF的標題中），但會在其響應中返回一個空的主體標記。

這可能不適用於原始海報，但它可能真的幫助其他人浪費他們的生活幾個小時。

來源

2011-10-26 20:59:44 James

如何以不同模式打開您的PDF？我現在正在與Rails中的空白作鬥爭。 – tibbon 2012-12-07 00:37:52

Solr ExtractingRequestHandler爲pdf文檔提供空白內容

回答

相關問題