2014-12-11 79 views
33

我是新來的文本挖掘。我使用了一個開源的jar(Mate Parser),它在依賴解析之後以CoNLL 2009格式輸出。我想使用信息抽取的依賴分析結果。但是我能夠理解一些輸出,但不能理解CoNLL數據格式。任何人都可以幫助我理解CoNLL數據格式嗎?任何類型的指針將不勝感激。什麼是CoNLL數據格式?

+0

在這個其他問題的意見中的插圖可能會幫助你:http://stackoverflow.com/questions/24394196/what-does-the-dependency-parse-output-of-turboparser-mean – 2015-02-11 07:42:28

回答

41

由於CoNLL每年都是不同的共享任務,因此有很多CoNLL格式。 CoNLL 2009的格式描述爲here。每行代表包含一系列製表符分隔字段的單個單詞。 _ s表示空值。 Mate-Parser's manual說,它使用了2009年CoNLL的第12列:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL 

的一些列的定義來自於早期的共享任務(在2006年使用的CoNLL-X format和2007年):

  • ID(指數句子,從1開始)
  • FORM(Word形式本身)
  • LEMMA(字引理或幹)
  • POS(語音的一部分)
  • FEAT(由分離的形態特徵清單|)
  • HEAD(爲ROOT索引句法父,0)
  • DEPREL(句法HEAD之間和該字的關係)

這些列的變體(例如,PPOS但不是POS)以P開頭指示該值是自動預測的而不是ld標準值。

更新:現在還有一個CoNLL-U數據格式,它擴展了CoNLL-X格式。