2
我想在Lucene的相似性方程中插入另一個評分因子。問題是我不能只是重寫相似性類,因爲它不知道文檔和計算得分的條件。如何在索引期間爲每個文檔中的每個詞定義提升因子?
例如,下面的文檔中的文本:
The cat is in the top of the tree, and he is going to stay there.
我有自己的算法,在此文件中指定的每一個條款對於他們每個人多少都得分整個文件非常重要。每個單詞可能得分爲:
cat: 0.789212
tree: 0.633423
top: 0.412315
stay: 0.123912
there: 0.0999842
going: 0.00988412
...
每個單詞的分數因文檔而異。例如,在另一個文件cat
可能有得分:0.0023912
我想將此分數添加到Lucene的得分,但我有點失去了如何做到這一點。
任何提示?