2012-04-10 64 views
0

我正在使用solr建立的引擎對PMI進行研究。我想獲取語料庫中的關鍵字數量(不是numofDocs)。有沒有直接的方法來獲得這個? 另一個問題: 我可以在solr系統中進行包含邏輯操作器(如NEAR)的搜索嗎?或類似的方法來做到這一點?solr:我怎樣才能得到整個語料庫中關鍵字的數量?

+0

你是什麼意思,「語料庫中的關鍵字數量」?你能澄清一下嗎?你是指特定文檔的匹配關鍵字的數量?或返回的所有文件中匹配關鍵字的數量?或匹配文檔中的關鍵字總數? – 2012-04-10 13:55:19

+0

我指的是所有文檔中匹配關鍵字的數量。 – wensir 2012-04-11 10:44:51

+0

啊,所以如果一個文件是匹配的,你想知道文件中有多少單詞符合搜索?然後對每個匹配的文檔執行相同的操作? Offhand我不知道有任何直接的方法來做到這一點。你可能會試着用'&hl.fragsize = 0'(返回整個文檔!)使用突出顯示,然後解析返回的數據(獲得高亮標記內的單詞邊界計數,加1)。 – 2012-04-17 18:27:02

回答

2

NEAR是「接近搜索」; Solr的提供的「sloppy phrase queries」的形式類似的東西,它有如下形式:

field:"phrase of words"~10 

10是一語中的的話必須有多近是。

+0

非常感謝! – wensir 2012-04-11 11:53:21

相關問題