33
我是新來的文本挖掘。我使用了一個開源的jar(Mate Parser),它在依賴解析之後以CoNLL 2009格式輸出。我想使用信息抽取的依賴分析結果。但是我能夠理解一些輸出,但不能理解CoNLL數據格式。任何人都可以幫助我理解CoNLL數據格式嗎?任何類型的指針將不勝感激。什麼是CoNLL數據格式?
我是新來的文本挖掘。我使用了一個開源的jar(Mate Parser),它在依賴解析之後以CoNLL 2009格式輸出。我想使用信息抽取的依賴分析結果。但是我能夠理解一些輸出,但不能理解CoNLL數據格式。任何人都可以幫助我理解CoNLL數據格式嗎?任何類型的指針將不勝感激。什麼是CoNLL數據格式?
由於CoNLL每年都是不同的共享任務,因此有很多CoNLL格式。 CoNLL 2009的格式描述爲here。每行代表包含一系列製表符分隔字段的單個單詞。 _
s表示空值。 Mate-Parser's manual說,它使用了2009年CoNLL的第12列:
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
的一些列的定義來自於早期的共享任務(在2006年使用的CoNLL-X format和2007年):
ID
(指數句子,從1開始)FORM
(Word形式本身)LEMMA
(字引理或幹)POS
(語音的一部分)FEAT
(由分離的形態特徵清單|)HEAD
(爲ROOT
索引句法父,0)DEPREL
(句法HEAD
之間和該字的關係)這些列的變體(例如,PPOS
但不是POS
)以P
開頭指示該值是自動預測的而不是ld標準值。
更新:現在還有一個CoNLL-U數據格式,它擴展了CoNLL-X格式。
在這個其他問題的意見中的插圖可能會幫助你:http://stackoverflow.com/questions/24394196/what-does-the-dependency-parse-output-of-turboparser-mean – 2015-02-11 07:42:28