2013-05-20 73 views
1

我使用WEKA工具進行數據分析聚類,但是在我的一些屬性中,域內有很多值。具體而言,我需要表示一些關於蛋白質的信息,我需要包含的信息是與其功能相關的術語。如何處理某些屬性中的多個值?

例如這些值是包括在相同的屬性「功能」:

「RNA結合蛋白」,「ribosomerRNA的RNA bindingstructural組分結合」,「翻譯」,「intracellularribosomeribonucleoprotein複合物」。

而且這些術語的多樣性非常巨大。

有人可以幫助我嗎?

回答

1

一種常用的方法是將分類變量與n不同類別拆分爲n二元虛擬變量。

例如:

gender = {male, female}可以用2個虛擬變量被改寫:

  1. male = [0, 1]
  2. female = [1, 0]

對你來說,這似乎是一個函數可以包含幾個不同值(例如1個具有幾個功能的蛋白質)。這很容易變成虛擬變量。

相關問題