我有不同的數據類型的列(如列:產品編號,名稱,大小,顏色,等級,部門等)的表,因爲不是所有列是數字的,我怎麼能聚集同類產品一起。數據位於Netezza中,爲了快速處理,我只想在數據量巨大時(大約200萬行)在數據庫端執行此操作。k均值實現混合變量在數據庫級
我試圖在R中實現Gower的相似性,但它需要很長時間。有沒有我可以在netezza上使用的UDF?
dput(頭(PROD))
結構(列表(Product_key = C( 「136220083」, 「134520094」, 「137520230」, 「133420231」, 「137420204」, 「136520284」),SRO_score = C(2,2,2,3,3, 1),PRDF_SKU_NAME = C( 「1496533」, 「1496534」, 「1496537」, 「1496540」, 「1496541」,「1496542 「),ATTRIB_VAL1 = C(」 冠軍畫布 「 」冠軍 畫布「, 」冠軍畫布「, 」冠軍畫布「, 」冠軍畫布「, 」冠軍畫布「),ATTRIB_VAL2 = C( 」海軍畫布「,」海軍帆布「, 「紅」, 「紅」, 「紅」, 「紅」),ATTRIB_VAL3 = C( 「9.5W」, 「10W」, 「7W」, 「8.5W」, 「9W」, 「9.5W」) ,「ATTUB_VAL4 = c」(「Keds」,「Keds」,「Keds」, 「Keds」,「Keds」,「Keds」),ATTRIB_VAL5 = c(「VULCANIZED FOOTWEAR」, 「VULCANIZED FOOTWEAR」 , 「硫化鞋」, 「硫化鞋」, 「硫化鞋」),ATTRIB_VAL6 = C( 「WOMENS SPORT傳統的」, 「WOMENS SPORT傳統的」, 「WOMENS SPORT 傳統的」, 「WOMENS SPORT傳統的」,「WOMENS SPORT傳統的」, 「WOMENS SPORT傳統的」),ATTRIB_VAL7 = C( 「1.38磅」, 「1.38磅」, 「1.38磅」, 「1.38磅」, 「1.38磅」, 「1.38磅」),ATTRIB_VAL8 = c(「女鞋 女鞋運動」,「女鞋運動鞋」,「女鞋運動鞋」,「女鞋女鞋「,」女鞋運動鞋「,」女鞋運動鞋「, ATTRIB_VAL9 = c(」女鞋「,」女鞋「,」女鞋「, 」女鞋「,」女鞋「女鞋 「)),.Names = C(」 Product_key」, 「SRO_score」, 「PRDF_SKU_NAME」, 「ATTRIB_VAL1」, 「ATTRIB_VAL2」, 「ATTRIB_VAL3」, 「ATTRIB_VAL4」, 「ATTRIB_VAL5」, 「ATTRIB_VAL6」, 「ATTRIB_VAL7」, 「ATTRIB_VAL8」, 「ATTRIB_VAL9」),row.names = C(4107L,3927L,4260L,3794L,4246L,4140L)中,class = 「data.frame」)
你應該分享一個數據樣本。就像'dput(head(data))'一樣。 – TUSHAr
@tushaR更新 –