我有一個相當大的數據集,其中包含純粹的分類數據。 數據的行數(樣本)超過30,000,000。 屬性已減少到4(列),所有屬性(屬性)都是明確的,其中一個屬性幾乎有50,000個級別!Clara_具有R中許多級別的分類數據的大數據集的數據集
我想在進一步處理之前將我的數據集羣。但是,由於數據量很大,因此不可能使用大多數聚類算法。 我選擇使用ClusterR軟件包中的Clara_Medoids來嘗試集羣。我面臨的問題是運行代碼給我一個我無法解決的錯誤。
代碼:
Cmediods_5 <- ClusterR::Clara_Medoids(MyData, clusters = 5, samples = 3, sample_size = 0.0005, distance_metric = "simple_matching_coefficient")
,這是錯誤我接收:
錯誤check_NaN_Inf(數據): 與請求的類型不兼容:[式=字符;目標=雙]。
我有一種感覺,這個錯誤是由於我使用「simple_matching_coefficient」距離度量,但我沒有看到任何其他可行的選項,因爲我的數據是純粹的分類。 有沒有辦法繞過數據類型問題來讓這個算法正常工作?顯然,我不想創建任何虛擬變量,因爲正如我之前解釋的,其中一個屬性約有5萬個關卡!
爲Clara_Medoids函數距離度量的選項有: 歐幾里德,曼哈頓,切比雪夫,堪培拉,braycurtis,pearson_correlation,simple_matching_coefficient,閔可夫斯基,漢明,jaccard_coefficient,Rao_coefficient,馬氏
不幸的是,它沒有高爾距離否則,那將是我的選擇。
首先處理* sample *,然後放大。處理擁抱數據只是爲了找出不工作是浪費時間。 –