2013-07-29 103 views
0

我正在學習使用Python的nltk進行自然語言處理。我想從我的目錄中的XML文件創建一個語料庫。所以我使用了下面的代碼。XMLCorpusReader未創建語料庫

>> from nltk.corpus import XMLCorpusReader 
>> corpus_root = "/Desktop/my_dir/corpus/" 
>> wiki = XMLCorpusReader(corpus_root ,'output.xml') 
>> wiki.fileids() 
>> 

該代碼塊應該輸出的fileid爲「output.xml'.But它不返回任何東西,光標轉到下一行‘>>’。 我有我的output.xml在corpus_root中指定的確切目錄。 我有讀取和寫入文件'output.xml'的全部權限。 我有nltk及其所有數據安裝並具有所有指定的路徑。

我該怎麼做才能使它工作?通過您的代碼

回答

0

讓我們來看看:

from nltk.corpus import XMLCorpusReader 
corpus_root = "/Desktop/my_dir/corpus/" 

我有點懷疑這個路徑名(見這樣的回答:https://stackoverflow.com/a/6617625/583834)。它可能應該是像/usr/my_username/Desktop/my_dir/corpus。通過打開終端窗口,導航到您的目錄並執行pwd以獲得您的absolute path,確保您的路徑正確。然後複製上面。

wiki = XMLCorpusReader(corpus_root ,'output.xml') 

XMLCorpusReader讀取目錄和文件名進行已經存在該目錄列表。這裏的第二個參數是你的輸入文件名,而不是你的輸出名。 (注意相關WordListCorpusReader的示例調用第三個「怎麼辦呢」部分herereader = WordListCorpusReader('.', ['wordlist'])

wiki.fileids() 

這可能是因爲你沒有從這個最後一行得到任何東西,因爲前兩行不正確使用。

相關問題