2014-01-26 33 views
4

我正在檢查斯坦福CoreNLP以瞭解NER和POS標記。但是,如果我想爲像<title>Nights</title>, <genre>Jazz</genre>, <year>1992</year>這樣的實體創建自定義代碼,該怎麼辦? CoreNLP在這種情況下有用嗎?自定義NER和POS標記

+0

是的,CoreNLP可以使用自定義「標籤」。 「年份」應該已標記爲DATE。一個簡單的方法是使用公報功能。您需要仔細閱讀文檔,多次。 –

回答

4

CoreNLP開箱即用會限制他們提到的類型:人員,位置,組織,雜項,日期,時間,金錢,數量。不,你不能只是假設它可以「憑直覺」做:)

在實踐中認識到其他實體,你必須選擇,要麼:

  1. 另找NER系統標記這些類型
  2. 使用基於知識/無監督的方法解決此標記任務。
  3. 搜索包含你想認識的類型,並重新訓練監督NER系統(CoreNLP或其他)
  4. 生成(以及可能的註釋)自己的資源額外的資源(語料庫) - 那麼你就必須定義一個註釋方案,規則等 - 非常有趣的工作部分!

事實上,除非您找到滿足您需求的現有系統,否則需要付出一定的努力!無監督的方法可以幫助您引導系統,以查看您是否需要查找/註釋專用語料庫。在後一種情況下,最好將數據作爲train/dev/test部分分開,以便能夠評估由此產生的系統對不可見數據執行的操作數。