搜索與非英語

我試圖在Solr的索引PDF文件，但看起來像，同時將文本轉換爲/索引問題UTF-8字符得到改變。搜索與非英語

例如下面突出顯示的文本：

轉換爲：

搜索適用於以後的關鍵字不是原詞。據我所知，這是在索引編制之前將PDF文本轉換爲UTF-8時發生的。下面

供參考是索引代碼：

String solrUrlString = "http://localhost:8983/solr/example"; 
    SolrClient solr = new HttpSolrClient(solrUrlString); 

    ContentStreamUpdateRequest up = new ContentStreamUpdateRequest("/update/extract"); 

    up.addFile(new File(filepage.getabsPath()), "application/pdf"); 

    up.setParam("literal.id", filepage.getId()); 
    up.setParam("uprefix", "attr_"); 
    up.setParam("fmap.content", "attr_content"); 

    up.setAction(AbstractUpdateRequest.ACTION.COMMIT, true, true); 
    solr.request(up);

來源

2016-08-19 Manzur Husain

文本內容的我想你正試圖指數的語言是古吉拉特語，印度方言之一。 Solr確實爲各種語言提供了語言分析，但是我害怕印度語言，它僅限於印地語。對於印地語，它提供了以下分類器類：solr.IndicNormalizationFilterFactory，solr.HindiNormalizationFilterFactory，solr.HindiStemFilterFactory。在文檔中我看不到古吉拉特語的一個。你可以看看Solr的語言分析部分https://cwiki.apache.org/confluence/display/solr/Language+Analysis。所以，雖然古吉拉特語是問題中的語言，但我認爲分析會很模糊，模糊和不相容。如果你找到更好的東西，請告訴我。希望這可以幫助：）。

來源

2016-08-19 18:16:12

搜索與非英語

回答

相關問題