如何構建IMS開源語料庫工作臺和NLTK可讀語料庫？

目前我有一堆.txt文件。在每個.txt文件中，每個句子由換行符分隔。如何將其更改爲IMS CWB格式以便CWB可讀？並以nltk格式。如何構建IMS開源語料庫工作臺和NLTK可讀語料庫？

有人能帶我去howto頁面嗎？還是有一個指導頁面來做到這一點，我試過閱讀手冊，但我真的不知道。 www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

這是否意味着我創建一個數據和註冊表目錄，然後我運行cwb-encode命令，它將被全部轉換爲vrt文件？它一次轉換一個文件嗎？我如何編寫腳本來運行目錄中的多個文件？

2011-02-18 alvas

可以很容易地從NLTK可讀語料庫產生CWB的「垂直化」的格式：

from nltk.corpus import brown 

out = open('corpus.vrt','w') 
for sentence in nltk.brown.sents(): 
    print >>out,'<s>' 
    for word in sentence: 
      print >>out,word 
    print >>out,'</s>' 
out.close()

從那裏，你可以按照instructions on the CWB website。

來源

2011-03-23 20:47:04 rmalouf

謝謝malouf。我已經把他們搞砸了。我正在使用cQP網站來將語料庫託管給語料庫，我如何爲語料庫創建元數據文件？我是否爲每個文件創建一個元數據，或者爲整個corupus創建一個元數據文件？ – alvas 2011-03-25 05:25:59

如何構建IMS開源語料庫工作臺和NLTK可讀語料庫？

回答

相關問題