2012-04-09 37 views
1

我已經安裝了tika和solr,它對阿拉伯語pdf很有效,是否有任何教程可以做到這一點,我也看到類似的問題,解決方案是包括ICU4J.jar,但我現在不意味着什麼呢如何用Tika解析阿拉伯語pdf

+1

有什麼問題嗎?你說「*對於阿拉伯語pdf *效果很好」,所以我不確定什麼不起作用,你需要什麼幫助? – Gagravarr 2012-04-18 15:55:13

+0

它適用於其他文檔格式,如doc,odt等...但對於pdf不提取阿拉伯文好,我認爲他們已經找到了解決方案http://stackoverflow.com/questions/7834401/solr-for - 阿拉伯語,但我是Java新手。 – 2012-04-18 16:10:46

回答

1

ICU4J可以在這裏下載:http://site.icu-project.org/download

+0

謝謝您的回覆,但如何安裝? – 2012-04-21 18:38:08

+0

WEB-INF/lib是Web應用程序(如Solr)中附加庫(jar文件)的標準位置。如果您正在運行Solr war文件,那麼請爲您的servlet容器(可能是Tomcat或Jetty)查找共享庫目錄。 – 2012-04-23 15:40:05

+0

不幸我是一個PHP程序員,我不使用tomcat,而是使用apache2,與apachesolr作爲服務器。任何詳細的Howto將會如此受到歡迎,謝謝您的回覆 – 2012-04-26 11:44:50