2017-10-16 58 views
0

我對歷史數據的分類變量執行了k模式聚類。我做了聚類,因爲我想看看數據落入了什麼樣的簇。現在我有了輸出,如果有新數據進來,有什麼方法可以預測它會落入的羣集。使用k模式輸出來預測

一種方法可能是,因爲我有每行的數據和它所屬的集羣,我可以將它用作列車數據並進行監督式學習。但我想知道是否有任何可能的方法存在,我可以使用現有的輸出變量來預測(半監督學習)

我可能無法共享任何數據或輸出,因爲我工作一個客戶,但如何處理的任何方向將是非常有幫助的。我一直在研究它相當長的一段時間,但找不到合適的解決方案。

+0

如果您無法提供[可重現的示例](https://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example),那麼我們無法提供幫助。它不一定是您的實際數據,但您應該能夠使用模擬數據或R中的內置數據集中的一個創建示例。 – MrFlick

+2

在羣集數據上訓練您選擇的分類器。然後使用分類器預測新數據。 – G5W

+0

或者,將「訓練」和「測試」數據集中在一起。這在計算上更加昂貴,因爲每次新數據可用時都必須重新運行算法。 –

回答

0

大多數聚類算法無法預測新數據。

KMeans和GMM是例外,k模式應該像k-means一樣工作(找到最相似的模式)。

但通常情況下,當您使用羣集時,您應該分析羣集並仔細檢查,因爲羣集不會100%正確。通常情況下,你會想要運行A的一些集羣,一些運行B的等等。無論有什麼意義。然後在已審查的,已清理的羣集上進行分類器的預測。