2012-11-27 78 views
6

我正在嘗試在Apache Solr中搜索阿拉伯語PDF。問題似乎是,Tika以相反的順序(從左到右)而不是從(從右到左)索引PDF。Solr for Arabic PDF

關於這個問題在這裏我找到了引用:

不過,我不知道如何將最新版本PDFBOX或ICU4J在我的apache solr。我的Apache Solr Contrib/extraction/lib文件夾包含pdfbox-1.6.0.jaricu4j-4.8.1.1.jar。如果要刪除上述文件並將它們替換爲其項目頁面中的最新庫文件,是否令TIKA能夠使用它們令人滿意?

請解釋一下,因爲我沒有使用過Java servlet的經驗。謝謝!

回答

0

從你問題上的標籤我假設你正在使用Drupal來連接Apache Solr。 Tika可以在向Solr發送二進制文檔時運行,或者在將文檔發送到Solr之前使用它。 Drupal Solr附件模塊爲「Tika(本地Java應用程序)」設置了一個設置。在您提供的第二個鏈接中,他們將Solr附件模塊修補爲使用PDFBox代替Tika在將二進制文件發送到Solr之前解析二進制文件。如果你不使用Drupal,你應該嘗試類似的方法。