-1
我有一個數據集有35萬行數據和23列,我想從中提取10000行和23列,這將最能代表父數據。在數據挖掘中,如何從大型數據集中提取最具代表性的子集?
我有一個數據集有35萬行數據和23列,我想從中提取10000行和23列,這將最能代表父數據。在數據挖掘中,如何從大型數據集中提取最具代表性的子集?
您的問題的答案太籠統了。因爲你正在尋找最有代表性的一組,我建議一些東西
數據使用隨機子採樣,取樣進行無需更換。使用交叉驗證以最大的準確度獲得該集合。但要明白,抽樣是隨機的。
使用分層採樣 - 將數據聚類到組中。然後從每個組採樣數據點以確保數據集的更多表示。
使用整個數據集並使用神經網絡構建模型。通常他們使用更多的數據。
*如何從大型數據集中提取最具代表性的子集*好吧,這是數據挖掘中最大的問題,更不用說它取決於許多事情,例如數據量有多大,有多少屬性列),什麼樣的數據..比如說..無論如何,你的問題是基於意見的,並且與一般的編程無關..對於國旗抱歉。 –
@BagusTesa此平臺僅適用於基於編程的問題嗎?我不這麼認爲。人們肯定可以要求做任務的方式。你的回答完全貶低。 –
好吧,這打破了[Stats StackExchange](https://stats.stackexchange.com/)的目的。 –