如何在lucene中只有一個字段的單個令牌進行搜索

我正在創建一個索引，其中的文檔只是一個單詞。我索引的域名，所以場「域」看起來像：如何在lucene中只有一個字段的單個令牌進行搜索

example.com 
thisiscool.com 
justtesting.org 
cnn.com

我創造我的搜索字詞等編程，因爲我所有的文檔場只是一個名詞，它看起來好像我的搜索將無法正常工作，因爲只有一個詞，如果我在布爾查詢中添加多個詞，它將永遠不會找到任何內容。

我應該如何搜索因爲我只有一個詞？我想盡可能提高效率。

Query term = new TermQuery("domain", "this") 
Query term2 = new TermQuery("domain", "cool") 

// add to boolean query 
bq.add(term, Occur.MUST) 
bq.add(term2, Occur.MUST) 

indexSearcher.search(bq, 100)

我期待得到「thisiscool.com」回來了，但我得到0命中。我的猜測是，因爲lucene不能將事物分解爲令牌，所以它永遠不會找到任何既有「this」也有「cool」的文檔。

我應該如何搜索這個scenerio？

來源

2017-07-29 Blankman

~~將通配符應用於您的搜索條款。~~

Query term = new TermQuery("domain", "this*"); Query term2 = new TermQuery("domain", "cool*"); // *cool* won't work sadly

但是，因爲邏輯是要造成這樣的查詢，該域必須首先「這個」以及「酷」

bq.add(term, Occur.MUST) bq.add(term2, Occur.MUST) => +domain:this* +domain:cool* Query term = new TermQuery("domain", "this*cool*"); => +domain:this*cool* // probably gets hits

，可能無法正常工作如果您在使用新版本，那麼你可以在查詢中使用正則表達式： http://lucene.apache.org/core/6_6_0/core/org/apache/lucene/util/automaton/RegExp.html

上面的例子實際上並不是你應該這樣做的。我測試了一下，甚至沒有真正的工作。你想要做的是建立專門的查詢，如PrefixQuery，WildcardQuery或RegexpQuery。

此外，如果您未使用QueryParser或需要Analyzer的東西，則查詢必須完全匹配索引中的內容。如果域名是TextField，它可能已經被小寫或者發生了其他事情，所以你也需要知道。

我只是使用正則表達式。

RegExp r = new RegExp("this.*cool"); 
Query q = new RegexpQuery(new Term("domain", r.toString()));

它可能會很慢，但如果你不用any char作爲前綴，它應該是非常好的。我也不完全確定如何忽略這種情況，但這可能是默認情況。

來源

2017-08-02 13:47:05 jake

我建議在這種情況下使用前綴查詢與布爾查詢結合使用。自己添加通配符對我來說看起來不太合適。 – dom

@你說得對，我其實在這裏有點困惑。我會編輯我的答案。 – jake

如何在lucene中只有一個字段的單個令牌進行搜索

回答

相關問題