我的申請要求我指出一個短語的頭(名詞或動詞)。我有這樣的信息在我的葡萄牙語文集:Chunker是否應該找到一個詞組的頭部?
我PRON-個人* B-NP
pergunto V-鰭B-VP
森佩爾進階* B-ADVP
終止日期PRON-INDP * B-NP
podia v-鰭B-VP
叔v-INF I-VP
SIDO v-PCP I-VP
aquele PRON-DET B-NP
jovem形容詞I-NP
Alemao的N * I- NP
。 。 O
語法與CONLL 2000類似,但*標記短語的頭部。 我的問題是:應該是Chunker的支持者嗎?你是否知道任何其他語料庫來訓練一個包含頭部的Chunker,或者它是我的特殊性?
- 編輯 -
我試着訓練分類,並取得了良好的效果:F1得分爲0.94無頭標記和0.93它。我認爲這是可以的。問題在於OpenNLP chunker API不支持此標記,並在創建跨度時感到困惑。我改變了OpenNLP代碼來處理它,我想知道它是否是一個很好的補丁,但由於它不常見,我不應該發送補丁。
Head = main =_núcleo_(葡萄牙語)。一個解析器可以找到一個短語的頭,但是一個解析器可以更快地做到這一點。英語示例:如果_美麗的sunset_,頭部是_sunset_。 – wcolen