我正在嘗試在Apache Solr中搜索阿拉伯語PDF。問題似乎是,Tika以相反的順序(從左到右)而不是從(從右到左)索引PDF。Solr for Arabic PDF
關於這個問題在這裏我找到了引用:
- Solr for Arabic
- How to parse arabic pdf with Tika
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
不過,我不知道如何將最新版本PDFBOX或ICU4J在我的apache solr。我的Apache Solr Contrib/extraction/lib
文件夾包含pdfbox-1.6.0.jar
和icu4j-4.8.1.1.jar
。如果要刪除上述文件並將它們替換爲其項目頁面中的最新庫文件,是否令TIKA能夠使用它們令人滿意?
請解釋一下,因爲我沒有使用過Java servlet的經驗。謝謝!