我一直在尋找兩天,一直沒能找到答案。solr-cell search for some pdfs not others
我已經從在tomcat 6上運行的Ubuntu服務器上的回購庫安裝了solr。我添加了solr-jar jar和tika庫。
我可以運行一個適用於某些pdf文件的curl命令,並將它們編入索引,但它並不適用於其他文件。起初我認爲有些文件已損壞,但似乎並非如此。在我看來,在工作和沒有工作的人之間沒有什麼重大區別。
錯誤我得到的是一個500錯誤 - see example here
的捲曲要求我做的是:
$ curl 'http://mysolrserver.com:port/solr/update/extract?map.content=text&map.stream_name=id&extractOnly=true&commit=true' -F "[email protected]/absolute/path/to/file.pdf"
這樣確實對某些PDF文件很好,只是不是別人。
我相信我已經安裝了solr 1.4.0。
任何幫助,將不勝感激 - 謝謝你
- 編輯 - 我使用Ubuntu 10.04.1有沒有什麼幫助的。
我認爲你可能是對的,它似乎夜間版本有一個更新的pdfbox版本。穩定版本使用相當老的版本。我試圖讓它更新到最新版本。看看這是否有幫助。我會保留這張票。 – potsed 2011-05-10 01:24:53