首先將來自新語料庫的實際數據放入您的nltk_data/corpora/
目錄。然後,您必須編輯nltk.corpus
的__init__.py
文件。您可以通過執行找到此文件路徑:
import nltk
print(nltk.corpus.__file__)
在文本編輯這個文件,你會看到,大多數的文件是創建LazyCorpusLoader
對象,並將它們分配給全局變量。
因此,例如,一個部分可能看起來像:
....
verbnet = LazyCorpusLoader(
'verbnet', VerbnetCorpusReader, r'(?!\.).*\.xml')
webtext = LazyCorpusLoader(
'webtext', PlaintextCorpusReader, r'(?!README|\.).*\.txt', encoding='ISO-8859-2')
wordnet = LazyCorpusLoader(
'wordnet', WordNetCorpusReader,
LazyCorpusLoader('omw', CorpusReader, r'.*/wn-data-.*\.tab', encoding='utf8'))
....
爲了增加一個新的語料,你只需要一個新的行添加到該文件相同的格式上面的例子。所以,如果你有一個名爲movie_reviews
語料庫,你必須保存在nltk_data/corpora/movie_reviews
的數據,那麼你想添加一行:
movie_reviews = LazyCorpusLoader('movie_reviews', ....)
爲LazyCorpusLoader其他參數可以在文檔here被發現。
然後你只需保存此文件,那麼你應該能夠做到:
from nltk.corpus import movie_reviews
偉大的這是工作:)非常感謝 – Janitha