2011-11-07 51 views
0

我遇到了Solr的pdf文本提取問題。 Solr使用Apache Tika提取PDF文件的文本,而tika使用PDFBox。當我將PDF文件發送到Solr時,它會成功提取文本,但文本完全混亂。 類似的東西Solr ExtractingRequestHandler pdf文本提取

MonaPersNr.KSt.KUZKapaz.Sollstd.MonatJahrtsbericht

但是,當我在用下面的命令在命令行直接與PDFBox的提取相同的PDF文件,我會得到一個不錯的結果。

Java的罐子PDFBOX-APP-1.6.0.jar ExtractText -console檢驗.pdf

我不知道哪個版本蒂卡或更高,這就PDFBox的版本所使用的Solr。我甚至無法找到,在戰爭Solr的文件對庫...在lib目錄的所有庫有以下幾種:

09.09.2011 09:06 <DIR>   . 
09.09.2011 09:06 <DIR>   .. 
09.09.2011 09:06   1.421.869 apache-solr-core-3.4.0.jar 
07.09.2011 13:12   22.478 apache-solr-noggit-r1099557.jar 
09.09.2011 09:06   281.626 apache-solr-solrj-3.4.0.jar 
07.09.2011 13:12   188.671 commons-beanutils-1.7.0.jar 
07.09.2011 13:12   58.160 commons-codec-1.4.jar 
07.09.2011 13:12   575.389 commons-collections-3.2.1.jar 
07.09.2011 13:12   27.361 commons-csv-1.0-SNAPSHOT-r966014.jar 
07.09.2011 13:12   57.779 commons-fileupload-1.2.1.jar 
07.09.2011 13:12   305.001 commons-httpclient-3.1.jar 
07.09.2011 13:12   109.043 commons-io-1.4.jar 
07.09.2011 13:12   257.923 commons-lang-2.4.jar 
07.09.2011 13:12   28.804 geronimo-stax-api_1.0_spec-1.0.1.jar 
07.09.2011 13:12   932.554 guava-r05.jar 
07.09.2011 13:12   17.308 jcl-over-slf4j-1.6.1.jar 
07.09.2011 13:12   12.359 log4j-over-slf4j-1.6.1.jar 
09.09.2011 09:04   850.852 lucene-analyzers-3.4.0.jar 
09.09.2011 09:02   1.398.580 lucene-core-3.4.0.jar 
09.09.2011 09:04   61.997 lucene-grouping-3.4.0.jar 
09.09.2011 09:04   83.615 lucene-highlighter-3.4.0.jar 
09.09.2011 09:04   30.214 lucene-memory-3.4.0.jar 
09.09.2011 09:04   69.797 lucene-misc-3.4.0.jar 
09.09.2011 09:04   45.979 lucene-queries-3.4.0.jar 
09.09.2011 09:04   57.912 lucene-spatial-3.4.0.jar 
09.09.2011 09:04   62.164 lucene-spellchecker-3.4.0.jar 
07.09.2011 13:12   25.496 slf4j-api-1.6.1.jar 
07.09.2011 13:12    8.890 slf4j-jdk14-1.6.1.jar 
07.09.2011 13:12   419.521 velocity-1.6.1.jar 
07.09.2011 13:12   309.896 velocity-tools-2.0-beta3.jar 
07.09.2011 13:12   520.969 wstx-asl-3.2.7.jar 
       29 Datei(en)  8.242.207 Bytes 
       2 Verzeichnis(se), 21.805.932.544 Bytes frei 

我是真的真的很高興,如果有人知道應該是一個解決方案。

回答

2

Solr將Tika及其依賴項的附加jar保存在單獨的文件夾中,這些文件夾不作爲Solr可部署的一部分進行打包。

對於Solr的3.4 -

如果你有Solr的樹幹,罐子可以在solr/contrib/extraction/lib文件夾

上,您可以找到罐子顛覆看到@path這是pdfbox-1.3.1.jar

trunk for Solr擁有最新的pdfbox-1.6.0.jar。

+0

好的,我用最新的1.6.0 jar文件替換了pdfbox,fontbox和jempbox lib,我仍然得到相同的結果。 – itsme

+0

好吧,當我使用每晚構建檔案文本提取工程相當不錯。但我寧願使用穩定版本 – itsme

+0

我已經用distly和contrib目錄替換了nightly build的內容。現在PDF提取工作很好。我希望其他一切都會保持穩定=) – itsme