2013-07-07 185 views
0

我公司的名字,像的文本匹配:公司名稱

1.Apple公司 2.Apple電腦公司 3.Apple 4.IBM 5.International商務機 4.international商務機公司 5.International商業機器公司 6.Ibm Corp.的

我需要用正確的公司名稱的文本相匹配,並與正確的公司名稱取代所有其他同類者...有什麼辦法???

回答

0

有一個python library做名稱匹配。

> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"] 
> process.extract("new york jets", choices, limit=2) 
    [('New York Jets', 100), ('New York Giants', 78)] 
> process.extractOne("cowboys", choices) 
    ("Dallas Cowboys", 90) 
0

maybe this might help?這是一個python diff庫。

您可以計算每個字符串之間的差異,如果兩個字符串非常相似,那麼您可能(可能注意到)可能會假設由於它們有很多共同點,它們可能是同一家公司。

+0

我有一百萬..我的公司名稱需要處理這個對所有@時間......在這種情況下,國際商業機器公司和IBM不會得到太多的similiarity ....我想到的方法,其可以解決這一個也... – Hari