2016-12-15 28 views
0

我處理純文本文件,並像識別文檔中存在的學院/大學名稱的實體。有些時候這些名字是用不同的格式寫成的,但它們是指一個大學/大學的名字。
例子:
賈瓦哈拉爾尼赫魯科技大學海得拉巴
J.N.T.U海德拉巴
JNTU海德拉巴
JNTU-H
賈瓦哈拉爾尼赫魯科技大學(JNTU)海得拉巴NER:涉及提取的實體以單一的現實世界的概念

所有上述名稱是指同一所大學的名字。

我們如何能與所有這些名字到一個學院/大學的名字?
(我正在尋找某種Web服務或類似Google搜索的內容,因爲如果我搜索這些名稱中的任何一個,它將返回相同的大學鏈接。)

回答

0

此任務被命名爲「實體鏈接」。有些系統是通過利用維基百科(特別是重定向這給可能的提到了實體),如BabelfyDBpedia Spotlight致力於此,在大多數情況下。

這些服務依賴於數據鏈路提及對唯一標識符:如果他們有可能提到了你的實體,它或許應該在大多數情況下(但對於那些曖昧)。但在許多情況下,他們的詞彙是不夠的,你可能會面對未知的實體或提及。在這種情況下,你必須使用現有的框架來構建自己的系統,並提供其與實體相關的數據庫和他們提及。首字母縮略詞可以從其全名自動生成。