2015-12-21 66 views
-1

我正在用nltk和stanford pos tagger解析包含大量單詞的文件。我的一些文件執行得很好,但很少出現以下錯誤。如何在Python中使用nltk stanford pos tagger解析大數據

OSError: Java command failed : ['C:\\Program Files\\Java\\jdk1.8.0_60\\bin\\java.exe', '-mx1000m', '-cp', 

經過一番研究,我發現問題是在運行時程序存儲空間較少。一種可能的解決方案是將一個文件分成兩份,然後分別處理它們。但是,這不是我的計劃的永久性長期解決方案。所以,現在我想增加進程內存。

我發現這篇文章通過over-commit分配內存。看來這個解決方案是針對linux的。我正在使用Windows 8,無法找到文件sysctl.conf。所以任何人都可以爲我提供解決方案,如何在Windows環境中增加內存。

感謝

+0

問題不在於如何讓更多的內存,它是你在做什麼是耗盡了嗎? – msw

+0

我只是用ntlk pos tagger來標記數據。它適用於其他文件。只有少數它不起作用。如果您即使在有關此錯誤的計算器上也會進行研究,您將看到問題與內存使用情況有關。我已經嘗試將文件分成兩部分,然後分別處理它,然後運行。那麼還有什麼問題呢? – user3050590

+0

這個問題,在@caot回答時,記憶太多。 – msw

回答

0

經過一番搜索,我增加了運行stanford POS tagger所需的java的最大內存。該命令是:

nltk.internals.config_java(options='-xmx2G') 

重新啓動程序和它的工作

1

嘗試堅持的輸出數據的數據處理過程中文件,如果它是可能的。

相關問題