我正在嘗試使用NLTK在New York Times Annotated Corpus上做一些工作,其中包含每篇文章的XML文件(以新聞行業文本格式NITF)。NLTK的XMLCorpusReader可用於多文件語料庫嗎?
我可以分析單個文件沒有問題,像這樣:
from nltk.corpus.reader import XMLCorpusReader
reader = XMLCorpusReader('nltk_data/corpora/nytimes/1987/01/01', r'0000000.xml')
我需要,雖然對整個語料工作。 我試過這樣做:
reader = XMLCorpusReader('corpora/nytimes', r'.*')
但這不會創建一個可用的讀者對象。例如
len(reader.words())
回報
raise TypeError('Expected a single file identifier string')
TypeError: Expected a single file identifier string
如何閱讀本文集爲NLTK?
我是新來的NLTK,所以任何幫助,非常感謝。
感謝華夫悖論。這非常有幫助。 – NAD