我想要做的就是使用scikit.learn中的Kmeans將純文本文檔分爲兩類。scikit.learn和kmeans的新手段,如何使用K表示將文檔集羣化(來自文件)?
這是用例場景。 我將會收到一些將被標記爲「重要」並且將被標記爲「不重要」的樣本集。
從scikit.learn實例數據集是從新聞組預定義的格式:
dataset = fetch_20newsgroups(subset='all', categories=categories,
shuffle=True, random_state=42)
我想要做的就是接收來自文本文件中的數據(20newsgroups似乎不是文本文件,同時,我甚至不能將其解壓)
我不清楚的是fetch_20newsgroups的數據結構及其工作原理。 而且我應該做的文本文件轉換成需要的格式(由fetch_20newsgroups提供這樣的一種)
感謝
叫Phyo什麼。
非常感謝您,測試.load_files方法後,我可能對NB和LinearSVC有更多問題。我會在那裏邀請你。 –
嘿@ogrisel,你能在這裏回答我的問題嗎? http://stackoverflow.com/q/13068257/200044我打算在scikit-learn上實現多處理 –