solr：我怎樣才能得到整個語料庫中關鍵字的數量？

我正在使用solr建立的引擎對PMI進行研究。我想獲取語料庫中的關鍵字數量（不是numofDocs）。有沒有直接的方法來獲得這個？另一個問題：我可以在solr系統中進行包含邏輯操作器（如NEAR）的搜索嗎？或類似的方法來做到這一點？solr：我怎樣才能得到整個語料庫中關鍵字的數量？

來源

2012-04-10 wensir

你是什麼意思，「語料庫中的關鍵字數量」？你能澄清一下嗎？你是指特定文檔的匹配關鍵字的數量？或返回的所有文件中匹配關鍵字的數量？或匹配文檔中的關鍵字總數？ – 2012-04-10 13:55:19

我指的是所有文檔中匹配關鍵字的數量。 – wensir 2012-04-11 10:44:51

啊，所以如果一個文件是匹配的，你想知道文件中有多少單詞符合搜索？然後對每個匹配的文檔執行相同的操作？ Offhand我不知道有任何直接的方法來做到這一點。你可能會試着用'＆hl.fragsize = 0'（返回整個文檔！）使用突出顯示，然後解析返回的數據（獲得高亮標記內的單詞邊界計數，加1）。 – 2012-04-17 18:27:02

NEAR是「接近搜索」; Solr的提供的「sloppy phrase queries」的形式類似的東西，它有如下形式：

field:"phrase of words"~10

的10是一語中的的話必須有多近是。

來源

2012-04-10 12:19:56 beerbajay

非常感謝！ – wensir 2012-04-11 11:53:21

solr：我怎樣才能得到整個語料庫中關鍵字的數量？

回答

相關問題