Solr for Arabic PDF

我正在嘗試在Apache Solr中搜索阿拉伯語PDF。問題似乎是，Tika以相反的順序（從左到右）而不是從（從右到左）索引PDF。Solr for Arabic PDF

關於這個問題在這裏我找到了引用：

不過，我不知道如何將最新版本PDFBOX或ICU4J在我的apache solr。我的Apache Solr Contrib/extraction/lib文件夾包含pdfbox-1.6.0.jar和icu4j-4.8.1.1.jar。如果要刪除上述文件並將它們替換爲其項目頁面中的最新庫文件，是否令TIKA能夠使用它們令人滿意？

請解釋一下，因爲我沒有使用過Java servlet的經驗。謝謝！

來源

2012-11-27 perpetual_dream

從你問題上的標籤我假設你正在使用Drupal來連接Apache Solr。 Tika可以在向Solr發送二進制文檔時運行，或者在將文檔發送到Solr之前使用它。 Drupal Solr附件模塊爲「Tika（本地Java應用程序）」設置了一個設置。在您提供的第二個鏈接中，他們將Solr附件模塊修補爲使用PDFBox代替Tika在將二進制文件發送到Solr之前解析二進制文件。如果你不使用Drupal，你應該嘗試類似的方法。

來源

2013-02-28 18:57:37

Solr for Arabic PDF

回答

相關問題