XMLCorpusReader未創建語料庫

我正在學習使用Python的nltk進行自然語言處理。我想從我的目錄中的XML文件創建一個語料庫。所以我使用了下面的代碼。XMLCorpusReader未創建語料庫

>> from nltk.corpus import XMLCorpusReader 
>> corpus_root = "/Desktop/my_dir/corpus/" 
>> wiki = XMLCorpusReader(corpus_root ,'output.xml') 
>> wiki.fileids() 
>>

該代碼塊應該輸出的fileid爲「output.xml'.But它不返回任何東西，光標轉到下一行‘>>’。我有我的output.xml在corpus_root中指定的確切目錄。我有讀取和寫入文件'output.xml'的全部權限。我有nltk及其所有數據安裝並具有所有指定的路徑。

我該怎麼做才能使它工作？通過您的代碼

來源

2013-07-29 chaithu

讓我們來看看：

from nltk.corpus import XMLCorpusReader 
corpus_root = "/Desktop/my_dir/corpus/"

我有點懷疑這個路徑名（見這樣的回答：https://stackoverflow.com/a/6617625/583834）。它可能應該是像/usr/my_username/Desktop/my_dir/corpus。通過打開終端窗口，導航到您的目錄並執行pwd以獲得您的absolute path，確保您的路徑正確。然後複製上面。

wiki = XMLCorpusReader(corpus_root ,'output.xml')

XMLCorpusReader讀取目錄和文件名進行已經存在該目錄列表。這裏的第二個參數是你的輸入文件名，而不是你的輸出名。（注意相關WordListCorpusReader的示例調用第三個「怎麼辦呢」部分here：reader = WordListCorpusReader('.', ['wordlist'])）

wiki.fileids()

這可能是因爲你沒有從這個最後一行得到任何東西，因爲前兩行不正確使用。

來源

2013-07-29 17:00:07 arturomp

XMLCorpusReader未創建語料庫

回答

相關問題