如何在索引期間爲每個文檔中的每個詞定義提升因子？

我想在Lucene的相似性方程中插入另一個評分因子。問題是我不能只是重寫相似性類，因爲它不知道文檔和計算得分的條件。如何在索引期間爲每個文檔中的每個詞定義提升因子？

例如，下面的文檔中的文本：

The cat is in the top of the tree, and he is going to stay there.

我有自己的算法，在此文件中指定的每一個條款對於他們每個人多少都得分整個文件非常重要。每個單詞可能得分爲：

cat: 0.789212 
tree: 0.633423 
top: 0.412315 
stay: 0.123912 
there: 0.0999842 
going: 0.00988412 
...

每個單詞的分數因文檔而異。例如，在另一個文件cat可能有得分：0.0023912

我想將此分數添加到Lucene的得分，但我有點失去了如何做到這一點。

任何提示？

使用Lucene的有效載荷功能：

索引中添加一個有效載荷到一個或多個令牌。

覆蓋的相似性類別搜索過程中處理得分有效載荷

使用負載敏感查詢

2010-10-10 01:20:51 bajafresh4life

回答