一直試圖運行射頻分類器的數據集約50,000條目與20個左右的標籤,我認爲應該罰款,但我總是遇到以下內容時,試圖適應...隨機森林分類器分段錯誤
Exception MemoryError: MemoryError() in 'sklearn.tree._tree.Tree._resize' ignored
Segmentation fault (core dumped)
已將數據集通過TfidfVectorizer,然後使用n = 100的TruncatedSVD進行降維。 RandomForestClassifier以n_jobs = 1和n_estimators = 10運行,試圖找到它將工作的最小點。該系統使用4GB的RAM運行,過去RF在類似的數據集上運行,估計數量更多。Scikit-learn在當前版本0.14.1下運行。
任何提示?
謝謝
嘗試在少量的數據或更低的數據上運行它。看看是否出現相同的錯誤。我也有4GB的內存,我在一些非常大的數據集上使用了隨機森林(不是這麼大),並且從來沒有得到過這個錯誤。請告訴我,如果在降低時仍然會出現同樣的錯誤。 –
如果它是可複製的,你應該在[sckikit bug跟蹤器](https://github.com/scikit-learn/scikit-learn/issues)上報告。 –
我會盡量減少@RyanSaxe建議的數據集大小。我已經在比這個大得多的數據集上運行RF,但是可以訪問非常大量的RAM –