快速搜索中文

我正在構建一個自動完成功能，它必須快速查詢超過1000萬個單詞/短語，並遇到一些問題。我的第一個想法是通過某種trie /三元樹結構，但這些都是嚴格的前綴匹配，這是不夠我的應用程序（我想完整的中綴匹配）。然後，我轉向了一些更大的解決方案，SqlServer全文索引，Lucene，Solr，Sphinx，但Lucene和SqlServer FullText索引實際上並不是全文，而是帶有漂亮功能（soundex，proximity等）的前綴。我試圖想到Levenshtein編輯距離可以提供幫助的一種方法，但是找不到一種方法既能夠達到相當準確的效果，又能支持具有較高編輯距離的單詞（例如，Google和ogl，編輯距離爲3，但3是高門檻的一般情況）。快速搜索中文

我的問題是，Google/bing等強大的機構如何做到這一點？他們只是在一段時間後蠻橫嗎？我會想象不到，但我找不到任何支持。

任何幫助，將不勝感激！

來源

2012-03-21 hermitt

我猜N-gram方法可能有幫助。然後是http://sna-projects.com/cleo/，它可以滿足您的需求。 – aitchnyu 2012-03-21 06:59:23

「Lucene不是全文」？你能詳細說明一下嗎？看起來你有一個不同於大多數人使用的定義。另外，你對Solr/Lucene/Sphinx/etc的每一個嘗試過什麼？你知道Solr有一個特定的組件來處理自動完成嗎？ – 2012-03-21 12:18:48

我全文意思是如果我搜索「* talli *」，「metallica」是匹配的。在sqlserver和lucene下，情況並非如此。 – hermitt 2012-03-21 18:11:22

如果您在Lucene的啓用queryParser.setAllowLeadingWildcard(true);，你可以使用前端和後端通配符，如：

*talli*

這將拿起含有「talli」包括「Metallica的」所有單個詞術語。

對於您來說，這可能不夠快，但是在某些情況下（如果您可以預先處理查詢字符串，您可能會得到舊字符），但在某些情況下（僅用於前綴通配符搜索）那也「訣竅：

acillateM

來源

2013-02-08 19:18:12

Lucene/Solr可以很容易地做到這一點。 Lucene/Solr中的搜索單元是一個Term，它通常是一個單詞，但根據text analysis的配置方式，幾乎可以做任何事情。

使用Solr有很多方法來實現這個（ngrams/shingles，facet前綴，TermsComponent，...）。 Solr的最新版本附帶autocomplete based on spell checking的特定組件。

來源

2012-03-21 22:34:13

當我在2013年需要中綴搜索時，我做了一些研究。我發現的唯一方法是Sphinx engine。需要將其配置爲支持中綴搜索

index tra 
{ 
    [...] 
    enable_star=1 
    min_infix_len=2 
}

之後它處理眨眼問題。我認爲這是大約20萬條記錄進行搜索。我使用本地引擎模仿內存中的搜索庫。

來源

2017-09-12 08:30:57 Jarekczek

快速搜索中文

回答

相關問題