如何規範公司名稱

我們有用戶生成的所有變體僱主名稱。例如，人們在輸入或導入：如何規範公司名稱

谷歌
谷歌公司
谷歌公司
谷歌公司

要在數據庫搜索這個，看起來像一個不同的公司都在一起。我們改變了一些東西來映射每個僱主到一個「正常化」的名字，但總共有7萬個，這很難用手工來完成。

有沒有人有如何規範現有條目的建議，以及如何保持我們爲所有傳入的名稱做呢？

2011-11-02 user577808

參見http://stackoverflow.com/questions/4835318/normalize-data-according-to-business-entity-legal-name-class-of-business-dns –

參見http://stackoverflow.com/questions/429385/how-do-i-normalize-a-large-user-generated-data-set-of-company-names –

我一直在做這方面的一些研究，並且發現了一篇最近的論文，提取，發現（通過聚類）並規範化（通過增強的編輯距離計算）組織名稱。 [NEMO]（http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2990275/?report=classic「NEMO」） – fjxx

有兩件事情可以做，以幫助：

當用戶添加了一個公司的名字，給他們一個自動完成框，以便他們得到的建議，如果它已經存在。或者，建議您在添加問題時使用現有的一個像stackoverflow。
查詢數據庫時使用搜索工具，以便您可以總結所有變體。您可以在這裏找到https://www.ruby-toolbox.com/categories/rails_search

搜索的寶石，我不認爲「正常化」他們事後會很容易，也不準確。

2011-11-02 02:29:27

我們有一個自動完成框，但大部分數據都是從其他平臺導入的比如LinkedIn和Facebook，所以對此沒有太多的控制。 – user577808

回答