2009-12-30 75 views
3

我在Solr中使用ExtractingRequestHandler來獲取文檔內容並對其進行索引。它適用於所有Microsoft文檔,但對於PDF,正在提取的內容爲空。我也嘗試了curl的extractOnly = true,並且它也返回空單元。Solr ExtractingRequestHandler爲pdf文檔提供空白內容

我已經在相同的文件上獨立使用了TIKA,並且提取內容非常好。不同之處在於獨立執行操作時,我使用的是Tika附帶的BodyContentHander,而不是Solr使用的SolrContentHandler。有沒有人看到這個?

我真的寧願讓Solr處理它,而不是使用Tika來提取Solr以外的內容。

+1

你試過設置stream.type參數嗎? (即application/pdf) – 2010-01-02 03:29:03

+0

我確實嘗試過。沒有幫助。仍然有這個問題。 – aseem 2010-01-07 06:21:55

回答

1

我在解決這個問題之前就處理了這個問題好幾個小時 - 我以非二進制模式打開我的PDF文件,並將它們提供給solr,直到文件中的第一個EOF字符。 Solr仍然會從文件中提取元數據(因爲它出現在PDF的標題中),但會在其響應中返回一個空的主體標記。

這可能不適用於原始海報,但它可能真的幫助其他人浪費他們的生活幾個小時。

+0

如何以不同模式打開您的PDF?我現在正在與Rails中的空白作鬥爭。 – tibbon 2012-12-07 00:37:52