我在問相關問題here但這個問題更一般。我拿了一個大的語料庫,並用他們的命名實體註釋了一些詞。就我而言,它們是特定領域的,我稱之爲:實體,行動,事件。我想用它們作爲提取更多命名實體的種子。例如,下面是一句話:我如何處理這個命名實體分類任務?
當機器人發生技術故障時,物體被拋出,但後來被另一個機器人抓住。
被標記爲:
當(機器人)/實體有(技術故障)/事故,所述 (對象)/實體爲(拋出) /動作但後來是(被捕獲)/動作由 (另一個機器人)/實體。
給出這樣的例子,有無論如何,我可以訓練一個分類器來識別新的命名實體嗎?例如,給出這樣一個句子:
納米機器人有一個bug,所以它撞到了牆上。
應該有些標籤是這樣的:
的(毫微)/實體有(錯誤)/事件,所以它(崩潰)/動作到(牆)/實體。
當然,我知道100%的準確性是不可能的,但我會有興趣瞭解任何正式的方法來做到這一點。有什麼建議麼?
你從訓練數據學習分類器應該具有的泛化能力一定相當。如果你使用一個預先構建的詞性標註器,那麼這些動作肯定會經常動詞,非功能動詞很可能是動作。要提高準確性,一件容易的事情就是減輕遠處的特徵。也許未來的兩個詞以及過去的兩個詞的重量是.25,上一個詞和下一個詞的重量是.5,而當前詞的重量是1. –