2017-05-29 55 views
-1

我發帖要問是否有任何方法,或有關如何處理分類問題中的離散和連續數據的想法。機器學習:如何處理離散和連續的數據在一起

在我的情況,我有一堆獨立的「批」,有離散的數據。這是與過程相關的數據,每個批次都有不同的點。我也有一個數據集,隨着時間的變化,相同的批次。然而,這一次,每批次都有很多時間觀察。該數據集看上去象下面這樣:

Data Set 1 

Batch 1  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 
Batch 2  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 
Batch 3  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 
Batch 4  DiscreteInfo(1)  DiscreteInfo(2) ....... DiscreteInfo(n) 

Data Set 2 

Batch 1  t(1)  TimeData 
Batch 1  t(2)  TimeData 
Batch 1  t(3)  TimeData 
Batch 1  t(4)  TimeData 
. 
. 
. 
. 
Batch n  (t1)  TimeData 
Batch n  (t2)  TimeData 
Batch n  (t3)  TimeData 

我試圖分類所有這些數據是否屬於「好」批次,一個「壞」批,或「馬馬虎虎」批。這由一個特定的離散參數決定(未在數據集中使用)。

我對機器學習非常陌生;任何意見或想法將不勝感激。我正在使用matlab分類學習器來嘗試解決這個問題。

回答

0

在處理分類問題時,您需要考慮幾件事情。

  1. 培訓數據。我們需要用於分類的訓練數據,即我們需要上述所有屬性值以及類別值,無論是「好」還是「差」還是「馬馬虎虎」。
  2. 使用這個,我們可以訓練一個模型,然後給出所有訓練屬性的新數據,我們可以預測它屬於哪個類。

就離散和連續而言,處理離散和連續數據的方式沒有區別。事實上,對於這種情況,我們可以生成一個新屬性,該屬性將是給定批次的所有其他時間變量的函數,然後執行分類。如果您提供數據集的一個實例,則可以更精確地回答問題。

+0

數據的結構與我的問題一樣。我無法給出一個示例數據集,因爲我不認爲我可以分享這些信息。基本上,我們有兩個數據表。一個是離散表,其中包含類別值和各種其他離散信息(通常是寫入過程的內容,每批次只有一次)。在另一個數據表中,我們擁有屬於每個批次的所有時變數據(每批大約有1300行信息​​;這就像在時間t的溫度一樣) – user3479118

+0

如果您認爲溫度數據是幫助分類的重要信息,那麼你必須爲每個批次設計一個新的列,它將成爲所有這1300行信息​​的派生列,例如均值,方差,偏度,峯度等。現在使用這些變量將數據放在一個表中,現在可以使用任何標準的機器學習算法。希望這有助於 –