2013-07-21 43 views
1

我有多語言文檔記錄與lucene索引。也就是說,每個文檔記錄都是一種語言,但是有不同的語言記錄。我打算將它們保存在一個索引中,以便我可以使用多語言查詢進行搜索。目前,該文件記錄都在一個數據輸入文件是這樣的:索引與luncene多語言字段

<DOCID>1<\DOCID> 
<LANGUAGE>CHINESE<\LANGUAGE> 
<TEXT>中文內容<\TEXT> 

<DOCID>2<\DOCID> 
<LANGUAGE>ENGLISH<\LANGUAGE> 
<TEXT>Some English text<\TEXT> 

我的問題是:有沒有辦法使用不同的分析儀對同一領域的一個指標作家的方法嗎?或者我應該將文檔記錄拆分爲兩種不同語言的輸入文檔,以應用不同的索引編寫器,但追加到相同的索引中?

非常感謝您的建議!

回答

1

當您致電IndexWriter.addDocument時,您可以提供您打算用於文檔的分析儀。

但是,將不同的語言文本分割到不同的字段中可能會使您受益更多,這可以防止遇到錯誤的語言,並且允許您在檢測到正確的語言之後創建AnalyzerWrapper以分配合適的分析器。

+0

我會繼續提出您的建議。謝謝! – querystack