我最近在nltk中擴展了名稱語料庫,並想知道如何將我擁有的兩個文件(male.txt,female.txt)放入一個語料庫中,以便我可以使用現有的nltk.corpus方法訪問它們。有沒有人有什麼建議?如何在Python Natural Language Toolkit中創建自己的語料庫?
非常感謝, 詹姆斯。
我最近在nltk中擴展了名稱語料庫,並想知道如何將我擁有的兩個文件(male.txt,female.txt)放入一個語料庫中,以便我可以使用現有的nltk.corpus方法訪問它們。有沒有人有什麼建議?如何在Python Natural Language Toolkit中創建自己的語料庫?
非常感謝, 詹姆斯。
由於the readme表示,名稱語料庫不在公共領域 - 您應該發送一封電子郵件,其中包含您對語料庫作者(地址在該文件中)所做的任何更改。除了法律和禮貌的細節之外,您可以簡單地用自己的文件替換其中的一個或兩個文件,它們格式非常簡單(每行一個名稱,允許評論[[並忽略]],並以'#'
開頭。
要安裝全新的語料庫,而不是隻是調整現有的語料庫,您可以從文檔here開始。
亞歷克斯是對的,從文檔開始,並找出哪個語料庫讀者將爲您的語料庫工作。簡單的實例化它,給出你的語料庫文件的路徑。正如您在文檔中看到的,內置語料庫僅僅是特定語料庫讀者類的實例。查看nltk.corpus軟件包中的代碼也應該很有幫助。
走過來看着nltk.corpus的源代碼,然後看語料庫(位於/家庭/ [用戶]/nltk_data /全集/名稱瞭解如何閱讀作品文集 - 這大概是在My Documents for XP和User for Win7用戶的某處)。
語料庫的結構及其相關函數將很好地理解如何使用NLTK中可用的不同語料庫。
在我的情況下,我查看了nltk.corpus的源代碼中的names變量,並對WordListCorpusReader函數感興趣,因爲名稱語料庫僅僅是一個單詞列表。
感謝您的回覆。通過電子郵件發送更改爲名稱語料庫的所有者。 – 2010-03-01 12:44:55