2014-02-19 116 views
0

我正在開發一個JEE應用程序,並且我是用於索引CV文檔的Lucene(通過Hibernate搜索)的新手。其實我正在開發一個搜索引擎,通過keyWord對候選人進行排序(例如:HTML5)。我希望在我的分析中包含一種語義方面,然後我會檢測CV的各個部分,並根據所在部分的不同來權衡相同的術語。Apache Lucene - 用於語義分析的自定義加權

然後,我問我如何修改Lucene核心來實現我的「自定義權重規則」,想象我有一種方法可以給我一個術語權重。 我會是這樣的:

term.setWeight(term.getSection().getWeightSection()); 

隨着任期期限在Lucene的意義

PS: 1)我讀了Lucene的核心文檔,但我能精確地找到我要找的。我只發現,直到現在,類重量。但我明白這門課是用來衡量查詢而不是條款的。

2)我不是英語爲母語的人,那麼如果有些事情不清楚,多謝一些細節或精確性。

非常感謝。

Nico。

回答

1

與其僅僅擁有一個大的身體字段,並試圖對字段中的段應用權重,您應該爲文檔的不同部分定義多個字段。您可以申請在索引時間提升到一個字段,只需要Field.setBoost。請使用MultiFieldQueryParser