2013-07-31 21 views
0

類似的結果,我們有在大語料庫的MS Word文檔的標記用戶選擇的應用程序。我們用一個或多個關鍵字標籤標記這些選擇,通常是標題標籤。我們要添加一個功能,選定文本即時分析,並打標籤呈現最可能的關鍵字,標題標籤的列表(基於現有的標記文本選擇)查找使用Lucene/SOLR指數

我們使用的是SOLR索引。我被告知我們可以簡單地發出選定的文本作爲查詢本身來返回類似的選擇。但是,所選文本的長度可能在200到6000個字之間。從內存使用情況來看,6000字查詢可能是一個問題!

我想我們可以做一些非常積極的停用詞刪除,以顯着減少查詢中的單詞數量,只留下非常有意義的單詞。我們一直在努力與這個語料庫在過去的10年,我們都非常熟悉的主題和所使用的詞彙,所以這將是很容易爲我們做。但問題是,我們還可以使用相同的索引,以允許普通用戶搜索的索引,如果我們去掉過多的常用詞,那麼他們的正常的查詢,可能無法正常工作(尤其是短語查詢)。

我們還希望在較小範圍內提高包含查詢文本的結果,而不是在整個文檔中任意散佈。

另一個問題是,我們允許嵌套的選擇。外選擇本質上可以是更一般的和是大約5000字長,並且內選擇會更短和局部更具體。然而,由於這兩種選擇含有相同的文字,SOLR高度行列他們兩個,當外選擇可能不那麼相關

我花的最後幾天通過SOLR查詢分析器文檔去,它看起來像這樣應該可行,但我仍然不確定我需要做什麼來完成這項工作。任何建議將不勝感激。

回答