2012-05-30 28 views
2

有人知道是否有任何語言獨立的命名實體識別庫?命名實體識別的語言無關工具

謝謝

+1

當然不存在支持所有世界語言的現成工具。你在尋找一些你可以在自己的數據上訓練的東西,或者是一個處理一堆語言的工具嗎?如果後者使用哪種語言? –

+0

我喜歡爲我自己的語言馬其頓語開發一個工具。我知道不可能有一個圖書館是獨立的,但也許有一些對我來說沒有什麼幫助:) – vikifor

+0

你可以選擇任何一個很好的圖書館,然後重新訓練馬其頓標記的數據。這在斯坦福大學的CRF-NER中很常見,儘管結果遠非完美,但它通常足以作爲基準線。 –

回答

2

我對此表示懷疑。

理論上講,如果你有大量的帶註釋的語料庫,你可以使用純監督學習技術。但是,如果您不能使用語言相關規則,啓發式或特徵,並且您正在尋找高精度和召回率 - 語料庫的大小必須非常龐大。我敢說,對於這樣的任務,可能沒有足夠的註釋數據用於任何給定的人類口語。