我使用文檔聚類sklearn k均值算法如 http://brandonrose.org/clustering如何分析sklearn中的tfidf矩陣的值?
引導這裏有TFIDF矩陣的計算。我已經理解了TFIDF技術背後的概念。 但是,當我在給定的程序的印刷這種矩陣,該矩陣是這樣的,
(0, 11) 0.238317554822
(0, 34) 0.355850989305
(0, 7) 0.355850989305
(0, 21) 0.238317554822
(0, 16) 0.355850989305
(0, 35) 0.355850989305
(0, 8) 0.355850989305
(0, 17) 0.355850989305
(0, 36) 0.355850989305
(1, 11) 0.238317554822
(1, 21) 0.238317554822
(1, 23) 0.355850989305
(1, 0) 0.355850989305
(1, 24) 0.355850989305
(1, 12) 0.355850989305
(1, 22) 0.355850989305
(1, 25) 0.355850989305
(1, 13) 0.355850989305
(2, 2) 0.27430356415
(2, 18) 0.339992197465
(2, 26) 0.339992197465
(2, 39) 0.339992197465
(2, 3) 0.339992197465
(2, 19) 0.339992197465
(2, 27) 0.339992197465
(2, 4) 0.339992197465
(2, 20) 0.339992197465
(3, 2) 0.27430356415
(3, 40) 0.339992197465
(3, 9) 0.339992197465
(3, 1) 0.339992197465
(3, 5) 0.339992197465
(3, 41) 0.339992197465
(3, 10) 0.339992197465
(3, 6) 0.339992197465
(3, 42) 0.339992197465
(4, 11) 0.202877476983
(4, 21) 0.202877476983
(4, 28) 0.302932576437
(4, 31) 0.302932576437
(4, 37) 0.302932576437
(4, 14) 0.302932576437
(4, 29) 0.302932576437
(4, 32) 0.302932576437
(4, 38) 0.302932576437
(4, 15) 0.302932576437
(4, 30) 0.302932576437
(4, 33) 0.302932576437
該矩陣是代表什麼值。 ?任何人都可以幫助我理解這一點嗎?
什麼是你的第一行取得的成果?你能告訴我們你的文本語料庫(你的TFIDF的輸入)怎麼樣? – MMF
這是我的樣本語料數據 [「Java是獨立於平臺的語言」, \t \t \t「學習Java語言是awasome」,「月蝕JUNO是新版本」,「日食成功安裝在我的電腦」,「java的是面向對象的程序設計語言「] –
是矩陣顯示的整個矩陣獲得或只是它的一個片段? – MMF