2016-08-19 67 views
2

我試圖在Solr的索引PDF文件,但看起來像,同時將文本轉換爲/索引問題UTF-8字符得到改變。搜索與非英語

例如下面突出顯示的文本:

demo

轉換爲:

demo

搜索適用於以後的關鍵字不是原詞。據我所知,這是在索引編制之前將PDF文本轉換爲UTF-8時發生的。下面

供參考是索引代碼:

String solrUrlString = "http://localhost:8983/solr/example"; 
    SolrClient solr = new HttpSolrClient(solrUrlString); 

    ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract"); 

    up.addFile(new File(filepage.getabsPath()), "application/pdf"); 

    up.setParam("literal.id", filepage.getId()); 
    up.setParam("uprefix", "attr_"); 
    up.setParam("fmap.content", "attr_content"); 

    up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true); 
    solr.request(up); 

回答

0

文本內容的我想你正試圖指數的語言是古吉拉特語,印度方言之一。 Solr確實爲各種語言提供了語言分析,但是我害怕印度語言,它僅限於印地語。對於印地語,它提供了以下分類器類:solr.IndicNormalizationFilterFactory,solr.HindiNormalizationFilterFactory,solr.HindiStemFilterFactory。在文檔中我看不到古吉拉特語的一個。你可以看看Solr的語言分析部分https://cwiki.apache.org/confluence/display/solr/Language+Analysis。所以,雖然古吉拉特語是問題中的語言,但我認爲分析會很模糊,模糊和不相容。如果你找到更好的東西,請告訴我。希望這可以幫助 :) 。