我處理純文本文件,並像識別文檔中存在的學院/大學名稱的實體。有些時候這些名字是用不同的格式寫成的,但它們是指一個大學/大學的名字。
例子:
賈瓦哈拉爾尼赫魯科技大學海得拉巴
J.N.T.U海德拉巴
JNTU海德拉巴
JNTU-H
賈瓦哈拉爾尼赫魯科技大學(JNTU)海得拉巴NER:涉及提取的實體以單一的現實世界的概念
所有上述名稱是指同一所大學的名字。
我們如何能與所有這些名字到一個學院/大學的名字?
(我正在尋找某種Web服務或類似Google搜索的內容,因爲如果我搜索這些名稱中的任何一個,它將返回相同的大學鏈接。)