2014-02-10 74 views
2

我使用Lucene將一些Java應用程序中的英文文本編入索引,我需要使用Lucene 4_1_0將它們進行詞形化。我發現詞幹(PorterStemFilter和SnowballFilter),但還不夠。Lucene語義化

經過詞典化之後,我想用查詢擴展的詞庫,Lucene也包含詞庫嗎?

如果這是不可能的,我會使用StanfordCoreNLP和WordNet來代替。

您是否認爲詞形化可能影響使用Lucene庫的搜索?

謝謝

+0

推理應該可以提高準確性,而不會丟失與詞幹相關的信息(這可能會將不同的形態形式混合在一起)。預計使用Wordnet擴展引理的第二步可以降低準確性並提高召回率。如果您可以在天真地從詞彙網絡(使用word2vec)或者其他語義相似度算法(或者其他語義相似度算法)中提取同義詞之前進行詞義解讀,可以減少準確性問題 –

回答

-1

據我所知,你需要在自己建立同義詞支持。