我想繪製一個2d圖,其中x軸爲term,y軸爲TFIDF評分(或文檔ID)作爲我的句子列表。我使用scikit learn的fit_transform()來獲取scipy矩陣,但我不知道如何使用該矩陣來繪製圖表。我試圖得到一個陰謀,看看我的句子可以用kmeans進行分類。繪製文檔tfidf 2D圖
這裏是fit_transform(sentence_list)
輸出:
(文檔ID,項數)TFIDF分數
(0, 1023) 0.209291711271
(0, 924) 0.174405532933
(0, 914) 0.174405532933
(0, 821) 0.15579574484
(0, 770) 0.174405532933
(0, 763) 0.159719994016
(0, 689) 0.135518787598
這裏是我的代碼:
sentence_list=["Hi how are you", "Good morning" ...]
vectorizer=TfidfVectorizer(min_df=1, stop_words='english', decode_error='ignore')
vectorized=vectorizer.fit_transform(sentence_list)
num_samples, num_features=vectorized.shape
print "num_samples: %d, num_features: %d" %(num_samples,num_features)
num_clusters=10
km=KMeans(n_clusters=num_clusters, init='k-means++',n_init=10, verbose=1)
km.fit(vectorized)
PRINT km.labels_ # Returns a list of clusters ranging 0 to 10
感謝,
爲您做以下工作?它應該如果你只看一個簡單的二維圖。 http://matplotlib.org/examples/pylab_examples/simple_plot.html – 2015-01-26 23:35:41