2015-04-27 57 views
0

我已經對文本文檔的大型數據集進行了分類,例如在此scikit-learn example中。現在我正在嘗試創建一個漂亮的圖形,如in this examplePyplot:爲文本繪製SGDClassifer

問題是我的數據是字符串,而這個例子有數字列表。有沒有什麼辦法可以製作一個類似的圖表,可能是使用文檔中某個單詞出現的頻率?

我的數據格式與first link中的20newsgroup數據一樣。

回答

0

你只能做二維散點圖。對於文本數據,您通常具有數十或數十萬個功能。 我有時會做的是將大系數可視化,如in this notebook

結果將會是一個條形圖,顯示大系數的符號和大小。