潛在語義索引(LSI)是統計分類算法嗎?爲什麼或者爲什麼不?潛在語義索引(LSI)是統計分類算法嗎?
基本上,我想弄清楚爲什麼the Wikipedia page for Statistical Classification沒有提到LSI。我只是進入這個東西,我試圖看看如何將所有不同的分類方法相互關聯。
潛在語義索引(LSI)是統計分類算法嗎?爲什麼或者爲什麼不?潛在語義索引(LSI)是統計分類算法嗎?
基本上,我想弄清楚爲什麼the Wikipedia page for Statistical Classification沒有提到LSI。我只是進入這個東西,我試圖看看如何將所有不同的分類方法相互關聯。
不,它們不完全相同。統計分類是爲了儘可能乾淨地將項目分成不同的類別 - 例如,對項目X是否更像A組或B組中的項目做出清晰的決定。
LSI是爲了表示對哪些項目是相似的或不同的,並且,主要是,發現項,顯示一個指定的項目的相似度的程度。雖然這是類似,它不完全相同。
你讀過關於LSI on Wikipedia嗎?它說它使用矩陣分解(SVD),而這又有時用於分類。
LSI/LSA最終是一種降維技術,並且通常結合最近鄰算法使其成爲分類系統。因此,它本身就是使用SVD在較低維度「索引」數據的一種方式。
機器學習的主要區別在於「監督」和「無監督」建模之間。
通常單詞「統計分類」是指監督模型,但並非總是如此。
使用監督方法,訓練集包含一個「地面實況」標籤,您可以建立一個模型進行預測。當您評估模型時,目標是預測真實標籤的最佳猜測(或概率分佈),在評估時您不會有這種猜測。通常有一個性能指標,並且很清楚正確與錯誤的答案是什麼。
無監督分類方法試圖進行聚類的大量可能會出現在複雜的方式改變成的「相似的」類的較小數量的數據點。每種類別的數據應該以某種「有趣」或「深度」的方式相似。既然沒有「基本事實」,你就無法評估「對與錯」,而是「更多」與「更少」有趣或有用。
同樣的評價時,你可以將新的例子到各簇的一個潛在(脆分類)或給予某種加權量化多麼相似或不同的貌似集羣的「原型」。
因此,在某些方面監督和無監督的模型可以產生應該說這是「預測」,類/簇標籤的預測,但它們在本質上是不同的。
通常無人監督的模型的目標是提供一種用於隨後的監督模型提供更智能和有力緊湊輸入。