2010-01-30 56 views

回答

4

由於the readme表示,名稱語料庫不在公共領域 - 您應該發送一封電子郵件,其中包含您對語料庫作者(地址在該文件中)所做的任何更改。除了法律和禮貌的細節之外,您可以簡單地用自己的文件替換其中的一個或兩個文件,它們格式非常簡單(每行一個名稱,允許評論[[並忽略]],並以'#'開頭。

要安裝全新的語料庫,而不是隻是調整現有的語料庫,您可以從文檔here開始。

+1

感謝您的回覆。通過電子郵件發送更改爲名稱語料庫的所有者。 – 2010-03-01 12:44:55

0

亞歷克斯是對的,從文檔開始,並找出哪個語料庫讀者將爲您的語料庫工作。簡單的實例化它,給出你的語料庫文件的路徑。正如您在文檔中看到的,內置語料庫僅僅是特定語料庫讀者類的實例。查看nltk.corpus軟件包中的代碼也應該很有幫助。

1

走過來看着nltk.corpus的源代碼,然後看語料庫(位於/家庭/ [用戶]/nltk_data /全集/名稱瞭解如何閱讀作品文集 - 這大概是在My Documents for XP和User for Win7用戶的某處)。

語料庫的結構及其相關函數將很好地理解如何使用NLTK中可用的不同語料庫。

在我的情況下,我查看了nltk.corpus的源代碼中的names變量,並對WordListCorpusReader函數感興趣,因爲名稱語料庫僅僅是一個單詞列表。

相關問題