什麼是CoNLL數據格式？

我是新來的文本挖掘。我使用了一個開源的jar（Mate Parser），它在依賴解析之後以CoNLL 2009格式輸出。我想使用信息抽取的依賴分析結果。但是我能夠理解一些輸出，但不能理解CoNLL數據格式。任何人都可以幫助我理解CoNLL數據格式嗎？任何類型的指針將不勝感激。什麼是CoNLL數據格式？

來源

2014-12-11 swapna sourav rout

在這個其他問題的意見中的插圖可能會幫助你：http://stackoverflow.com/questions/24394196/what-does-the-dependency-parse-output-of-turboparser-mean – 2015-02-11 07:42:28

由於CoNLL每年都是不同的共享任務，因此有很多CoNLL格式。 CoNLL 2009的格式描述爲here。每行代表包含一系列製表符分隔字段的單個單詞。 _ s表示空值。 Mate-Parser's manual說，它使用了2009年CoNLL的第12列：

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

的一些列的定義來自於早期的共享任務（在2006年使用的CoNLL-X format和2007年）：

ID（指數句子，從1開始）
FORM（Word形式本身）
LEMMA（字引理或幹）
POS（語音的一部分）
FEAT（由分離的形態特徵清單|）
HEAD（爲ROOT索引句法父，0）
DEPREL（句法HEAD之間和該字的關係）

這些列的變體（例如，PPOS但不是POS）以P開頭指示該值是自動預測的而不是ld標準值。

更新：現在還有一個CoNLL-U數據格式，它擴展了CoNLL-X格式。

來源

2014-12-11 14:49:37 dmcc

什麼是CoNLL數據格式？

回答

相關問題