Chunker是否應該找到一個詞組的頭部？

我的申請要求我指出一個短語的頭（名詞或動詞）。我有這樣的信息在我的葡萄牙語文集：Chunker是否應該找到一個詞組的頭部？

我PRON-個人* B-NP
pergunto V-鰭B-VP
森佩爾進階* B-ADVP
終止日期PRON-INDP * B-NP
podia v-鰭B-VP
叔v-INF I-VP
SIDO v-PCP I-VP
aquele PRON-DET B-NP
jovem形容詞I-NP
Alemao的N * I- NP
。。 O

語法與CONLL 2000類似，但*標記短語的頭部。我的問題是：應該是Chunker的支持者嗎？你是否知道任何其他語料庫來訓練一個包含頭部的Chunker，或者它是我的特殊性？

- 編輯 -

我試着訓練分類，並取得了良好的效果：F1得分爲0.94無頭標記和0.93它。我認爲這是可以的。問題在於OpenNLP chunker API不支持此標記，並在創建跨度時感到困惑。我改變了OpenNLP代碼來處理它，我想知道它是否是一個很好的補丁，但由於它不常見，我不應該發送補丁。

來源

2011-08-03 wcolen

Head = main =_núcleo_（葡萄牙語）。一個解析器可以找到一個短語的頭，但是一個解析器可以更快地做到這一點。英語示例：如果_美麗的sunset_，頭部是_sunset_。 – wcolen

我從來沒有見過支持頭部尋找的chunker，所以我無法幫助您使用語料庫。你可能做的，如果你已經有一個大塊頭，正在制定一系列的規則，在chunker找到它之後指定頭部，或者訓練一個分類器來這樣做。您可以在您的語料庫上進行訓練並將其應用於chunker輸出。

來源

2011-08-04 09:53:07

謝謝@larsmans。我試圖訓練分類器並取得了很好的結果：F1分數爲0.94，沒有標記，0.93。我認爲這是可以的。問題在於OpenNLP chunker API不支持此標記，並在創建跨度時感到困惑。我改變了OpenNLP代碼來處理它，我想知道它是否是一個很好的補丁，但由於它不常見，我不應該發送補丁。 – wcolen

Chunker是否應該找到一個詞組的頭部？

回答

相關問題