2015-07-28 40 views
1

我已經建立了一個ML模型Azure和我的大部分數據轉換/特徵生成步驟已經在R. 進行起初,我改變了R本身的數據(工作更快)並將創建的csv上傳到ML studio。Azure的機器學習:編譯R-劇本,但不同的結果

現在我的模型完成了,我試圖在ML studio本身運行R代碼,而不是手動上傳轉換後的數據集。它運行完美無瑕。但是,當我比較結果數據集(上傳的數據集和創建的數據集)時,它們會有所不同。這些列有不同的手段,格式,模型執行得更少。實際的數據輸入/單元格看起來很好。

我覺得它與列的格式有關,所以我嘗試將列轉換爲字符類型,或將結果數據集轉換爲csv(在ML studio中),並讓ML Studio找出如何格式化它們。

到目前爲止,沒有結果。

有沒有人已經遇到過這個問題?解決辦法是什麼?

回答

1

設法解決它:

  • 的手動上傳數據集在天青格式化僅「字符串功能」。 (因爲有些NA的工作室ML以這種方式對它們進行格式化)。
  • 然而,R腳本格式化NA的方式不同,因此列也是這樣。

我不能完全確定是什麼導致了不同的結果,因爲數據是字符明智相同。只有格式不同的不適用於不同的欄位。

下面的解決我的問題(在RSCRIPT工作室ML年底):

data = data.frame(lapply(data, as.character), stringsAsFactors=FALSE) 
data[is.na(data)] = "NA" 
+0

是NA的等同於空值或遺漏值? –