如何在Python Natural Language Toolkit中創建自己的語料庫？

我最近在nltk中擴展了名稱語料庫，並想知道如何將我擁有的兩個文件（male.txt，female.txt）放入一個語料庫中，以便我可以使用現有的nltk.corpus方法訪問它們。有沒有人有什麼建議？如何在Python Natural Language Toolkit中創建自己的語料庫？

非常感謝，詹姆斯。

由於the readme表示，名稱語料庫不在公共領域 - 您應該發送一封電子郵件，其中包含您對語料庫作者（地址在該文件中）所做的任何更改。除了法律和禮貌的細節之外，您可以簡單地用自己的文件替換其中的一個或兩個文件，它們格式非常簡單（每行一個名稱，允許評論[[並忽略]]，並以'#'開頭。

要安裝全新的語料庫，而不是隻是調整現有的語料庫，您可以從文檔here開始。

2010-01-30 18:13:26

感謝您的回覆。通過電子郵件發送更改爲名稱語料庫的所有者。 – 2010-03-01 12:44:55

亞歷克斯是對的，從文檔開始，並找出哪個語料庫讀者將爲您的語料庫工作。簡單的實例化它，給出你的語料庫文件的路徑。正如您在文檔中看到的，內置語料庫僅僅是特定語料庫讀者類的實例。查看nltk.corpus軟件包中的代碼也應該很有幫助。

2010-02-09 01:12:41 Jacob

走過來看着nltk.corpus的源代碼，然後看語料庫（位於/家庭/ [用戶]/nltk_data /全集/名稱瞭解如何閱讀作品文集 - 這大概是在My Documents for XP和User for Win7用戶的某處）。

語料庫的結構及其相關函數將很好地理解如何使用NLTK中可用的不同語料庫。

在我的情況下，我查看了nltk.corpus的源代碼中的names變量，並對WordListCorpusReader函數感興趣，因爲名稱語料庫僅僅是一個單詞列表。

2010-03-01 12:53:17

回答