模糊字符串在Python中用Whoosh搜索

我在MongoDB中建立了一個大型銀行數據庫。我可以輕鬆地獲取這些信息，並使用它在whoosh中創建索引。例如，我希望能夠匹配銀行名稱'Eagle Bank &密蘇里州信託公司'和'密蘇里州鷹行和信託公司'。下面的代碼工作與簡單的模糊等，但不能達到上述匹配：模糊字符串在Python中用Whoosh搜索

from whoosh.index import create_in 
from whoosh.fields import * 

schema = Schema(name=TEXT(stored=True)) 
ix = create_in("indexdir", schema) 
writer = ix.writer() 

test_items = [u"Eagle Bank and Trust Company of Missouri"] 

writer.add_document(name=item) 
writer.commit() 

from whoosh.qparser import QueryParser 
from whoosh.query import FuzzyTerm 

with ix.searcher() as s: 
    qp = QueryParser("name", schema=ix.schema, termclass=FuzzyTerm) 
    q = qp.parse(u"Eagle Bank & Trust Co of Missouri") 
    results = s.search(q) 
    print results

給我：

<Top 0 Results for And([FuzzyTerm('name', u'eagle', boost=1.000000, minsimilarity=0.500000, prefixlength=1), FuzzyTerm('name', u'bank', boost=1.000000, minsimilarity=0.500000, prefixlength=1), FuzzyTerm('name', u'trust', boost=1.000000, minsimilarity=0.500000, prefixlength=1), FuzzyTerm('name', u'co', boost=1.000000, minsimilarity=0.500000, prefixlength=1), FuzzyTerm('name', u'missouri', boost=1.000000, minsimilarity=0.500000, prefixlength=1)]) runtime=0.00166392326355>

是否有可能實現什麼，我想嗖？如果沒有其他基於python的解決方案，我有嗎？

來源

2011-07-15 ciferkey

你可以比賽Co與Company使用模糊搜索在嗖但你不應該這樣做，因爲Co和Company之間的差別是很大的。 Co與Company類似，因爲Be與Beast和ny到Company類似，您可以想象搜索結果有多糟和多大。

但是，如果你想匹配Compan或compani或Companee到Company，你可以通過使用FuzzyTerm個性化類的默認maxdist等於做2個或更多：

maxdist - 最大編輯給定文本的距離。

class MyFuzzyTerm(FuzzyTerm): 
    def __init__(self, fieldname, text, boost=1.0, maxdist=2, prefixlength=1, constantscore=True): 
     super(MyFuzzyTerm, self).__init__(fieldname, text, boost, maxdist, prefixlength, constantscore)

然後：

qp = QueryParser("name", schema=ix.schema, termclass=MyFuzzyTerm)

您可以通過設置maxdist到5匹配Co與Company但正如我所說給糟糕的搜索結果。我建議保持maxdist從1到3。

如果您正在尋找匹配一個詞的語言變體，您最好使用whoosh.query.Variations。

注意：較舊的飛快版本有minsimilarity而不是maxdist。

來源

2015-05-28 09:34:53

也許一些這方面的東西可能有幫助（字符串匹配打開由seatgeek傢伙來源）：

https://github.com/seatgeek/fuzzywuzzy

來源

2011-07-17 08:30:08 malangi

不錯的一個，謝謝 – cedbeu

以供將來參考，並必須有一個更好的辦法以某種方式做到這一點，但這裏是我的射擊。

# -*- coding: utf-8 -*- 
import whoosh 
from whoosh.index import create_in 
from whoosh.fields import * 
from whoosh.query import * 
from whoosh.qparser import QueryParser 

schema = Schema(name=TEXT(stored=True)) 
idx = create_in("C:\\idx_name\\", schema, "idx_name") 

writer = idx.writer() 

writer.add_document(name=u"This is craaazy shit") 
writer.add_document(name=u"This is craaazy beer") 
writer.add_document(name=u"Raphaël rocks") 
writer.add_document(name=u"Rockies are mountains") 

writer.commit() 

s = idx.searcher() 
print "Fields: ", list(s.lexicon("name")) 
qp = QueryParser("name", schema=schema, termclass=FuzzyTerm) 

for i in range(1,40): 
    res = s.search(FuzzyTerm("name", "just rocks", maxdist=i, prefixlength=0)) 
    if len(res) > 0: 
     for r in res: 
      print "Potential match (%s): [ %s ]" % (i, r["name"]) 
     break 
    else: 
     print "Pass: %s" % i 

s.close()

來源

2011-10-20 13:23:15 trokster

-2

您可以使用此功能，下面模糊搜索一組單詞對短語：

def FuzzySearch(text, phrase): 
    """Check if word in phrase is contained in text""" 
    phrases = phrase.split(" ") 

    for x in range(len(phrases)): 
     if phrases[x] in text: 
      print("Match! Found " + phrases[x] + " in text") 
     else: 
      continue

來源

2016-02-29 17:55:45

模糊字符串在Python中用Whoosh搜索

回答

相關問題