2013-11-02 24 views
0

我想使用的關聯算法(先驗),但我的記錄具有任意的標籤,即如何表示Weka的標籤列表?

...other stuff...,"tag1,tag2,tag4" 
    ...other stuff...,"tag1,tag2,tag5" 
    ...other stuff...,"tag1,tag3,tag5" 

即以逗號分隔的標籤列表在每個記錄爲帶引號的文本字段的端塞。

當它通過Pentaho Kettle中的ARFF插件運行時,此列的輸出是'Nominal',每個標籤組合都是離散值。

正確的做法是將每個標籤都視爲一個布爾值,因此它可以具有獨立於其他標籤的獨立值。

完成此操作的最簡單方法是什麼?

回答

0

Weka提供的過濾器稱爲「NominalToBinary」。它的目的顯然是將標稱屬性變成二進制。 您可以閱讀更多關於此過濾器here

它的一些相關的選項有:

  1. 選擇到過濾器將被應用的屬性。

  2. 選擇是否將新的二進制屬性視爲名義或數字。