使用NLTK 2.0.4。安裝於EPD的Python-2.7.3(而不是 Canopy)。在Ubuntu 12.10上。在終端我鍵入:Python nltk下載和download_shell凍結(掛起)punkt嘗試
In [96]: nltk.download_shell()
NLTK Downloader
---------------------------------------------------------------------------
d) Download l) List u) Update c) Config h) Help q) Quit
---------------------------------------------------------------------------
Downloader> d
Download which package (l=list; x=cancel)?
Identifier> punkt
Downloading package 'punkt' to /home/espears/nltk_data...
然後它凍結。相關的punkt.zip文件被寫入指定的目錄,但接口永不放棄。
這個例子是用IPython的,但是我用普通的Python 2.7.3解釋器試了一樣,得到了同樣的結果。
當我嘗試使用unzip
直接解壓縮文件時,發現錯誤,指出在該文件中找不到正確的中央zip文件代碼,並且無法解壓縮。請看下圖:
[email protected] ~/nltk_data/tokenizers $ unzip punkt.zip
Archive: punkt.zip
End-of-central-directory signature not found. Either this file is not
a zipfile, or it constitutes one disk of a multi-part archive. In the
latter case the central directory and zipfile comment will be found on
the last disk(s) of this archive.
unzip: cannot find zipfile directory in one of punkt.zip or
punkt.zip.zip, and cannot find punkt.zip.ZIP, period.
這種情況既nltk.download()
並以同樣的方式nltk.download_shell()
。
我可以使用du
檢查.zip文件,看看最初它的大小從0 MB增加到大約2.7 MB,所以它實際上是下載一些東西,而且文件不是空的。但它停在2.7 MB(可能與文件的預期全尺寸對應,也可能不對應),然後Python shell下載程序凍結。
可能是這個問題? https://support.enthought.com/entries/25801945-NLTK-Natural-Language-Toolkit-download-function-hangs – BrenBarn
不,我不使用Canopy。這是來自Enthought的較舊版本。我也通過IPython使用它,但是可以確認如果直接從Python終端使用相同的掛起。請注意,即使我使用繞過圖形問題的「download_shell」,我也遇到同樣的問題。 – ely