2009-12-30 103 views
4

我使用Zend Lucene來索引瑞典文本。問題在於lucene在瑞典字符åäö上標記了單詞。例如,單詞「världens」在索引中變成兩個單詞「v」和「ldens」。Zend Lucene - 標記化瑞典語字符

有沒有一種方法可以添加zend lucene應該接受並且不會標記的字符?

回答

5

使用UTF-8 compatible text analyzer代替default text analyzer進行標記。請注意,這需要使用UTF-8支持編譯PHP的PCRE(與Perl兼容的正則表達式)庫(默認情況下,如果您使用與PHP捆綁在一起的PCRE庫,但在使用共享庫時可能未啓用)。對於不區分大小寫的UTF-8兼容分析儀版本,您還需要啓用mbstring擴展。