2012-04-28 57 views
0

我使用Lucene的Term Freq向量來計算文檔之間的餘弦相似度, 假定我的文檔有這3個術語,「欠」,「欠」,「欠」。 Lucene將此作爲3個單獨的術語,但其中3個意味着相同的「欠」。 Lucene中是否有可用於通過語義進行索引的功能?因此它將「欠」「欠」「欠」索引爲詞「欠」的詞語頻率= 3?Lucene索引與語義

如果不是,我會歡迎任何建議來完成這項任務?

回答

1

您可以將SnowballFilter與EnglishStemmer結合使用。它將用根動詞詞語替代那些動詞(在你的例子中,它將是欠款,或者可能欠款)。