Q

獲取每個文檔的搜索詞點擊（點的數量）在Lucene的

2009-12-17 54 views 1 likes

1

任何一個可以建議我，讓每一個文件的字命中（無發生）在Lucene的最好方法是什麼？..獲取每個文檔的搜索詞點擊（點的數量）在Lucene的

2009-12-17 John

+0

lucene java或lucene .net？ – skaffman 2009-12-21 11:54:44

A

回答

1

SpanTermQuery.getSpans會給出一個列舉文檔以及術語出現的位置。文檔已排序，因此您可以統計每個文檔顯示的次數，而忽略位置信息。

2009-12-18 02:33:43

5

Lucene使用基於字段而不是基於文檔的索引。爲了讓每個文檔詞數：

遍歷文件使用IndexReader.document()請將isDeleted和（）。
在文檔d中，使用Document.getFields()迭代字段。
對於每個字段f，使用getTermFreqVector()獲取條款。
查看術語向量和每個術語的和頻率。
每個字段的詞頻總和會給你文檔的詞頻矢量。

2009-12-21 11:26:50

+1

+1。您可能不得不考慮文本發生的詞幹和其他轉換。例如，如果您在詞幹字段中搜索「美麗」一詞，則索引中的實際詞將是「美麗」。 – 2009-12-25 04:36:42

相關問題