2011-05-09 64 views
2

我一直在尋找兩天,一直沒能找到答案。solr-cell search for some pdfs not others

我已經從在tomcat 6上運行的Ubuntu服務器上的回購庫安裝了solr。我添加了solr-jar jar和tika庫。

我可以運行一個適用於某些pdf文件的curl命令,並將它們編入索引,但它並不適用於其他文件。起初我認爲有些文件已損壞,但似乎並非如此。在我看來,在工作和沒有工作的人之間沒有什麼重大區別。

錯誤我得到的是一個500錯誤 - see example here

的捲曲要求我做的是:

$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "[email protected]/absolute/path/to/file.pdf" 

這樣確實對某些PDF文件很好,只是不是別人。

我相信我已經安裝了solr 1.4.0。

任何幫助,將不勝感激 - 謝謝你

- 編輯 - 我使用Ubuntu 10.04.1有沒有什麼幫助的。

回答

0

確定solr的每日快照使用PDFBox 1.3.1,而不是使用0.7。*的當前穩定版本,這是相當數量的修訂更改。

我可以使用solr的快照版本索引所有的pdf。這對我來說似乎是 固定在下一個穩定版本。

1

NullPointerException可能是一個錯誤。報告給PDFBox和/或Tika

+0

我認爲你可能是對的,它似乎夜間版本有一個更新的pdfbox版本。穩定版本使用相當老的版本。我試圖讓它更新到最新版本。看看這是否有幫助。我會保留這張票。 – potsed 2011-05-10 01:24:53

相關問題