有人可以幫助我找到所有lucene索引中的詞頻:
例如,如果文檔A有3個詞(B),文檔C有2個詞,我想要一個方法,以返回圖5是表示在所有Lucene索引詞(B)的頻率統計lucene索引中的詞頻
2
A
回答
8
3
假設你使用Lucene 3.x的工作:
IndexReader ir = IndexReader.open(dir);
TermDocs termDocs = ir.termDocs(new Term("your_field", "your_word"));
int count = 0;
while (termDocs.next()) {
count += termDocs.freq();
}
一些評論:
dir
是Lucene的Directory class的實例。 RAM和文件系統索引的創建方式不同,請參閱Lucene文檔以獲取詳細信息。
"your_filed"
是提交搜索一個術語。如果您有多個字段,則可以爲所有這些字段運行過程,或者爲索引文件編制索引時,可以創建特殊字段(例如「_content」)並在其中保留所有其他字段的串聯值。
+0
非常'TermDocs'不在lucene 5.3.1中,我使用:( – 2016-11-24 19:02:00
1
使用Lucene 3.4
簡單的方法來計數,但你需要兩個數組: -/
int[] docs = new int[1000];
int[] freqs = new int[1000];
int count = indexReader.termDocs(term).read(docs, freqs);
要注意:如果你會用閱讀你是不是能夠接下來用()因爲read()之後你已經在枚舉的末尾:
int[] docs = new int[1000];
int[] freqs = new int[1000];
TermDocs td = indexReader.termDocs(term);
int count = td.read(docs, freqs);
while (td.next()){ // always false, already at the end of the enumartion
}
相關問題
- 1. Lucene:在索引時覆蓋詞頻率
- 2. 在索引中打印單詞 - Lucene
- 3. 在lucene中索引多語言詞
- 4. 從Lucene索引中提取搭配詞
- 5. Lucene不索引一些單詞?
- 6. 單詞重要性在lucene索引
- 7. lucene 4.0統計
- 8. 在Lucene索引的字段中搜索多個單詞
- 9. 在lucene中索引
- 10. 是否有可能通過詞性搜索Lucene索引中的單詞
- 11. 統計每個單詞的頻率
- 12. Lucene - 在索引中搜索一組單詞
- 13. 搜索Lucene索引
- 14. 搜索Lucene索引
- 15. Lucene索引搜索
- 16. Lucene:多詞詞組作爲搜索詞
- 17. Lucene中的索引推文
- 18. Lucene中的合併索引
- 19. Apache lucene索引
- 20. Zend Lucene索引
- 21. Lucene索引
- 22. Jackrabbit Lucene索引
- 23. Lucene索引MAXFieldLength
- 24. Lucene索引
- 25. Sitecore的Lucene索引
- 26. 多個詞的彈性搜索/ lucene索引?
- 27. Lucene倒排索引訪問計數
- 28. 在Lucene索引中存儲帶撇號的單詞
- 29. 從Lucene 4.0索引中獲取最常用的詞
- 30. Lucene近似搜索中詞的順序
你在看什麼樣的索引大小?取決於您可能想要使用Hadoop來做到這一點,或者使用簡單的索引解析器來收集地圖中的單詞頻率。 – anirvan 2010-11-12 18:23:06