2016-09-14 19 views
1

我試圖理解version space learning和候選消除算法。 把這些訓練例子具有以下屬性:候選消除 - 新數據的分類

Sky, Temp, Humid, Wind, Water, Forecast, EnjoySport 

和相應的值:

<Sunny, Warm, Normal, Strong, Warm, Same, Yes> 
<Sunny, Warm, High, Strong, Warm, Same, Yes> 
<Rainy, Cold, High, Strong, Warm, Change, No> 
<Sunny, Warm, High, Strong, Cool, Change, Yes> 

如果我執行的消失候選我發現S(最特殊的假設)和G(最普遍假設)是:

S: {<Sunny, Warm, ?, Strong, ?, ?>} 
G: {<Sunny, ?, ? ,? ,?, ?>, <?, Warm, ?, ?, ?, ?>} 

但是,新數據的分類呢?我的意思是,如果我有像這樣的新數據點會發生什麼?

<Sunny, Warm, Normal, Strong, Cool, Change> 

該算法會做什麼?它會將新記錄分爲正面還是負面?

我搜索了很多它,但我沒有找到任何有用的東西。

回答

1

Wikipedia page

學習後,分類可以在看不見的例子通過測試算法所學到的假設進行。如果該例子與多個假設一致,則可以應用多數投票規則。

<disclaimer>,而不必與這種學習</disclaimer>的很多經驗,目的是學習,可以由「一般」和「具體的」邊界描述的可能性空間的區域,也許內插的能力它們之間。

例如,也許你會考慮<Sunny, ?, ? ,Strong ,?, ?>包含的假設,因爲它是「之間」<Sunny, Warm, ?, Strong, ?, ?><Sunny, ?, ? ,? ,?, ?>

由邊界標識的假設空間表示您的模型學到的知識。其中的每個假設(如<Sunny, ?, ? ,Strong ,?, ?>)將匹配新數據點或不匹配。然後決定如何解釋最終的「意見」。顯然把它投給「投票」是很常見的。

總結:

  1. 枚舉最具體和最常用的邊界之間的所有假設。
  2. 理解每個假設對新數據點的反應:它是說是或否?
  3. 新數據點是否有更多「是」票或「否」票?這就是你將新點標記爲。

請注意,雖然上述算法有利於溝通意圖,但它可能對性能不利。特別是,可能一次考慮包含假設的組。這樣做會減少所需的迭代次數。