2017-05-09 46 views
-1

我有一個數據集有35萬行數據和23列,我想從中提取10000行和23列,這將最能代表父數據。在數據挖掘中,如何從大型數據集中提取最具代表性的子集?

+0

*如何從大型數據集中提取最具代表性的子集*好吧,這是數據挖掘中最大的問題,更不用說它取決於許多事情,例如數據量有多大,有多少屬性列),什麼樣的數據..比如說..無論如何,你的問題是基於意見的,並且與一般的編程無關..對於國旗抱歉。 –

+0

@BagusTesa此平臺僅適用於基於編程的問題嗎?我不這麼認爲。人們肯定可以要求做任務的方式。你的回答完全貶低。 –

+0

好吧,這打破了[Stats StackExchange](https://stats.stackexchange.com/)的目的。 –

回答

0

您的問題的答案太籠統了。因爲你正在尋找最有代表性的一組,我建議一些東西

數據
  1. 使用隨機子採樣,取樣進行無需更換。使用交叉驗證以最大的準確度獲得該集合。但要明白,抽樣是隨機的。

  2. 使用分層採樣 - 將數據聚類到組中。然後從每個組採樣數據點以確保數據集的更多表示。

  3. 使用整個數據集並使用神經網絡構建模型。通常他們使用更多的數據。