2011-11-02 103 views
3

我們有用戶生成的所有變體僱主名稱。例如,人們在輸入或導入:如何規範公司名稱

谷歌
谷歌公司
谷歌公司
谷歌公司

要在數據庫搜索這個,看起來像一個不同的公司都在一起。我們改變了一些東西來映射每個僱主到一個「正常化」的名字,但總共有7萬個,這很難用手工來完成。

有沒有人有如何規範現有條目的建議,以及如何保持我們爲所有傳入的名稱做呢?

+0

參見http://stackoverflow.com/questions/4835318/normalize-data-according-to-business-entity-legal-name-class-of-business-dns –

+0

參見http://stackoverflow.com/questions/429385/how-do-i-normalize-a-large-user-generated-data-set-of-company-names –

+1

我一直在做這方面的一些研究,並且發現了一篇最近的論文,提取,發現(通過聚類)並規範化(通過增強的編輯距離計算)組織名稱。 [NEMO](http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2990275/?report=classic「NEMO」) – fjxx

回答

3

有兩件事情可以做,以幫助:

  • 當用戶添加了一個公司的名字,給他們一個自動完成框,以便他們得到的建議,如果它已經存在。或者,建議您在添加問題時使用現有的一個像stackoverflow。

  • 查詢數據庫時使用搜索工具,以便您可以總結所有變體。您可以在這裏找到https://www.ruby-toolbox.com/categories/rails_search

搜索的寶石,我不認爲「正常化」他們事後會很容易,也不準確。

+0

我們有一個自動完成框,但大部分數據都是從其他平臺導入的比如LinkedIn和Facebook,所以對此沒有太多的控制。 – user577808