2017-06-19 27 views
0

我正在學習一點ML,我被困住了。假設我想用k個鄰居做一些文本分類。我使用tfidf向量化工具創建一個Matrix術語文檔,其中爲每個單元存儲tf-idf值。 現在,我該如何繪製飛機上的點?我的意思是對於x1-y1,y1是文檔1的預測類,但是x?KNN在飛機上的功能

文檔X1中的每個術語都是Vector?我的意思是我無法真正理解文本分類中的哪些是飛機上的點以及如何將它們可視化。謝謝。

回答

0

通常情況下,您不能在平面上繪製文本數據,您將繪製一組(x,y)點的方式。

在一架飛機上,一種選擇是選擇x值的兩個維度,其中文件類使用點的顏色或形狀表示。這裏的x值是你計算的tf-idf值。通常,tf-idf矩陣趨於稀疏,因此此可視化可能沒有用處。

通常用於文本處理的技術是對tf-idf矩陣進行維數降低,並在縮小的空間中表示文檔。 LSA是這樣做的一種方法。然後每個文檔都被表示爲新空間中的一個點。通過將前兩個維度選爲x和y值,現在可以更好地顯示文檔。

這只是一個可視化的例子。如果您對想要識別的關係有更好的瞭解,那麼可以用它來指導可視化方法的選擇。