2016-10-18 37 views
3

我使用文檔聚類sklearn k均值算法如 http://brandonrose.org/clustering如何分析sklearn中的tfidf矩陣的值?

引導這裏有TFIDF矩陣的計算。我已經理解了TFIDF技術背後的概念。 但是,當我在給定的程序的印刷這種矩陣,該矩陣是這樣的,

(0, 11) 0.238317554822 
    (0, 34) 0.355850989305 
    (0, 7) 0.355850989305 
    (0, 21) 0.238317554822 
    (0, 16) 0.355850989305 
    (0, 35) 0.355850989305 
    (0, 8) 0.355850989305 
    (0, 17) 0.355850989305 
    (0, 36) 0.355850989305 
    (1, 11) 0.238317554822 
    (1, 21) 0.238317554822 
    (1, 23) 0.355850989305 
    (1, 0) 0.355850989305 
    (1, 24) 0.355850989305 
    (1, 12) 0.355850989305 
    (1, 22) 0.355850989305 
    (1, 25) 0.355850989305 
    (1, 13) 0.355850989305 
    (2, 2) 0.27430356415 
    (2, 18) 0.339992197465 
    (2, 26) 0.339992197465 
    (2, 39) 0.339992197465 
    (2, 3) 0.339992197465 
    (2, 19) 0.339992197465 
    (2, 27) 0.339992197465 
    (2, 4) 0.339992197465 
    (2, 20) 0.339992197465 
    (3, 2) 0.27430356415 
    (3, 40) 0.339992197465 
    (3, 9) 0.339992197465 
    (3, 1) 0.339992197465 
    (3, 5) 0.339992197465 
    (3, 41) 0.339992197465 
    (3, 10) 0.339992197465 
    (3, 6) 0.339992197465 
    (3, 42) 0.339992197465 
    (4, 11) 0.202877476983 
    (4, 21) 0.202877476983 
    (4, 28) 0.302932576437 
    (4, 31) 0.302932576437 
    (4, 37) 0.302932576437 
    (4, 14) 0.302932576437 
    (4, 29) 0.302932576437 
    (4, 32) 0.302932576437 
    (4, 38) 0.302932576437 
    (4, 15) 0.302932576437 
    (4, 30) 0.302932576437 
    (4, 33) 0.302932576437 

該矩陣是代表什麼值。 ?任何人都可以幫助我理解這一點嗎?

+0

什麼是你的第一行取得的成果?你能告訴我們你的文本語料庫(你的TFIDF的輸入)怎麼樣? – MMF

+0

這是我的樣本語料數據 [「Java是獨立於平臺的語言」, \t \t \t「學習Java語言是awasome」,「月蝕JUNO是新版本」,「日食成功安裝在我的電腦」,「java的是面向對象的程序設計語言「] –

+0

是矩陣顯示的整個矩陣獲得或只是它的一個片段? – MMF

回答

0

第一列包含的元組(ind_document, ind_word)其中​​是文檔的索引(在你的情況下的string)中包含的數據集,和ind_word字在由TfidfVectorizer對象生成單詞的辭典的索引。

第二列包含您給出word(對應於(ind_document, ind_word)字的TF-IDF值。


UPDATE

如果你看看更接近TfidfVectorizerhere實施,你可以看到有一個參數norm默認該參數設置爲l2這是L2範數用於規範化獲得的數據。

如果你不想將資料標準化,並將它與手動改變這個參數norm = None

+0

謝謝。 我已經嘗試計算TFIDF使用公式給出在網站http://www.tfidf.com/ 結果我通過筆計算得到的是不同於這個TfidfVectorizer函數提供的。 你能給一個想法,爲什麼這種差異?如果你有這個工作? 正如我在網上搜索,有一些L-2歸一化是在結果上完成的。但我沒有得到究竟發生了什麼。 –

+0

我已經更新了我的答案 – MMF