2016-06-15 43 views
0

我遇到標籤問題。我正在運行分層聚類分析,我需要標記我的數據範圍。這是我的代碼的一部分,用於特定的變量,在這裏我試着將某些級別:如何確定R中特定因子分類標籤的數字範圍

comisiones[["Monto.Pago.Credito"]] <- ordered(cut(comisiones[["Monto.Pago.Credito"]], c(100.96, 382.30, 866.80, 1040, 11500)), labels = c("min", "1er Quartil", "3er Quartil", "Max")) 

我從書「數據挖掘和有R 商業分析」的例子得到這個結構(約翰內斯Ledolter,2013)。

該代碼截斷了我的一些數據,將它們轉換爲NULL值,這就是我的問題。

回答

0
cut(...)

,使用參數include.lowest = TRUE,即

ordered(cut(comisiones[["Monto.Pago.Credito"]], c(100.96, 382.30, 866.80, 1040, 11500), include.lowest = TRUE), labels = c("min","1er Quartil", "3er Quartil", "Max")) 
0

我相信你可以通過在第二個cut參數上面添加低於和低於最小值和最大值的較低和較高值來解決您的問題。

這裏是一個重複的例子:

cut(1:10, c(3,7,8)) 
[1] <NA> <NA> <NA> (3,7] (3,7] (3,7] (3,7] (7,8] <NA> <NA> 
Levels: (3,7] (7,8] 

添加下部和上部的值:

> cut(1:10, c(0,3,7,8,11)) 
[1] (0,3] (0,3] (0,3] (3,7] (3,7] (3,7] (3,7] (7,8] (8,11] (8,11] 
Levels: (0,3] (3,7] (7,8] (8,11] 
相關問題