2011-02-18 66 views
1

目前我有一堆.txt文件。在每個.txt文件中,每個句子由換行符分隔。如何將其更改爲IMS CWB格式以便CWB可讀?並以nltk格式。如何構建IMS開源語料庫工作臺和NLTK可讀語料庫?

有人能帶我去howto頁面嗎?還是有一個指導頁面來做到這一點,我試過閱讀手冊,但我真的不知道。 www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

這是否意味着我創建一個數據和註冊表目錄,然後我運行cwb-encode命令,它將被全部轉換爲vrt文件?它一次轉換一個文件嗎?我如何編寫腳本來運行目錄中的多個文件?

回答

2

可以很容易地從NLTK可讀語料庫產生CWB的「垂直化」的格式:

from nltk.corpus import brown 

out = open('corpus.vrt','w') 
for sentence in nltk.brown.sents(): 
    print >>out,'<s>' 
    for word in sentence: 
      print >>out,word 
    print >>out,'</s>' 
out.close() 

從那裏,你可以按照instructions on the CWB website

+0

謝謝malouf。我已經把他們搞砸了。我正在使用cQP網站來將語料庫託管給語料庫,我如何爲語料庫創建元數據文件?我是否爲每個文件創建一個元數據,或者爲整個corupus創建一個元數據文件? – alvas 2011-03-25 05:25:59