請請,請幫助。我有一個文件夾充滿了我想用NLTK分析的文本文件。我如何將它作爲語料庫導入,然後在其上運行NLTK命令?我下面放在一起的代碼,但它給我這個錯誤:導入和使用NLTK語料庫
raise error, v # invalid expression
sre_constants.error: nothing to repeat
代碼:
import nltk
import re
from nltk.corpus.reader.plaintext import PlaintextCorpusReader
corpus_root = '/Users/jt/Documents/Python/CRspeeches'
speeches = PlaintextCorpusReader(corpus_root, '*.txt')
print "Finished importing corpus"
words = FreqDist()
for sentence in speeches.sents():
for word in sentence:
words.inc(word.lower())
print words["he"]
print words.freq("he")
你不會讓我們繼續下去。總之,**你在哪裏**有錯誤?請爲初學者提供完整的錯誤追蹤,然後逐步完成您的程序。您的語料庫是否包含「CRspeeches」目錄中的'.txt'文件?在初始化'演講稿'後,你會用'print(speeches.fileids())'得到你的文件列表嗎?你能打印一些應該由'speeches.sents()'返回的句子嗎? – alexis 2014-09-28 22:03:05