2013-01-23 16 views
2

基本匹配查詢:比利·蘇在ElasticSearch,去除停止詞繼續對得分的影響很小

測試賽查詢#1:比利·蘇和

測試賽查詢#2:比利和蘇

我們最終獲得了Base和#1之間的相同分數,但Base和#2的分數相差不大。

使用分析API,在兩個測試查詢中刪除了停止詞and,但基本查詢和測試查詢#2之間的Sue的start_offset和end_offset標記屬性不同。

基本上,記錄剩餘令牌之間的預停止字距離並且對得分具有小但有限的影響。

問題

是否有延遲令牌的start_offsetend_offset性質的計算方式以後才停止字被刪除,或以其他方式防止去除停止詞從以任何方式影響得分?

回答

3

也許禁用position increments停止詞filterand看看是否有幫助?特別是如果您的映射在停用詞過濾器之後有某種過濾器,您將從位置增量

E.g.像這樣:

"analyzer": { 
    "analyzer_example":{ 
     "tokenizer":"standard", 
     "filter":["standard", "lowercase", "filter_stop"] 
    } 
}, 
"filter": { 
    "filter_stop":{ 
     "type":"stop", 
     "enable_position_increments":"false" 
    } 
} 
+0

哇,不能相信我忽略了那個選項。今天早上,我已經看過這個特定的頁面,它一直在臉上盯着我。感謝您的完美回答! –

+1

這不適用於較新的版本,請參閱http://elasticsearch-users.115913.n3.nabble.com/Enable-Position-Increments-property-not-available-td4048950.html – Renaud