2011-08-03 52 views
0

我的申請要求我指出一個短語的頭(名詞或動詞)。我有這樣的信息在我的葡萄牙語文集:Chunker是否應該找到一個詞組的頭部?

我PRON-個人* B-NP
pergunto V-鰭B-VP
森佩爾進階* B-ADVP
終止日期PRON-INDP * B-NP
podia v-鰭B-VP
叔v-INF I-VP
SIDO v-PCP I-VP
aquele PRON-DET B-NP
jovem形容詞I-NP
Alemao的N * I- NP
。 。 O

語法與CONLL 2000類似,但*標記短語的頭部。 我的問題是:應該是Chunker的支持者嗎?你是否知道任何其他語料庫來訓練一個包含頭部的Chunker,或者它是我的特殊性?

- 編輯 -

我試着訓練分類,並取得了良好的效果:F1得分爲0.94無頭標記和0.93它。我認爲這是可以的。問題在於OpenNLP chunker API不支持此標記,並在創建跨度時感到困惑。我改變了OpenNLP代碼來處理它,我想知道它是否是一個很好的補丁,但由於它不常見,我不應該發送補丁。

+0

Head = main =_núcleo_(葡萄牙語)。一個解析器可以找到一個短語的頭,但是一個解析器可以更快地做到這一點。英語示例:如果_美麗的sunset_,頭部是_sunset_。 – wcolen

回答

2

我從來沒有見過支持頭部尋找的chunker,所以我無法幫助您使用語料庫。你可能做的,如果你已經有一個大塊頭,正在制定一系列的規則,在chunker找到它之後指定頭部,或者訓練一個分類器來這樣做。您可以在您的語料庫上進行訓練並將其應用於chunker輸出。

+0

謝謝@larsmans。我試圖訓練分類器並取得了很好的結果:F1分數爲0.94,沒有標記,0.93。我認爲這是可以的。問題在於OpenNLP chunker API不支持此標記,並在創建跨度時感到困惑。我改變了OpenNLP代碼來處理它,我想知道它是否是一個很好的補丁,但由於它不常見,我不應該發送補丁。 – wcolen

相關問題