我正在尋找一些天才SQL幫助,我遇到了一個棘手的統計問題。SQL統計抽樣
我正在做的是從一組不平衡的用戶配置文件中拉出一個統計平衡的樣本。一次爲單個配置文件屬性(例如性別)執行此操作將會有點簡單。但是,要立即在多個維度上做到這一點需要一些複雜性。
爲了論證的緣故,讓我們說我有這張表。
Profile.userID
Profile.Gender
Profile.Age
Profile.Income
如果我想拉型材池出來混的,使用戶的新採樣大致匹配所有的以下特徵:
50% male, 50% female
30% young, 40% middle age, 40% old
40% low income, 40% middle income, 20% high income
任何人都不會有如何的任何想法把這個關掉?
是什麼阻止您隨機抽取一個記錄,直到樣本集滿足您的要求? –
我該如何防止它不斷失衡?假設我只需要一個女性唱片,但是拉動這個唱片會讓我的年齡和收入失去平衡......? – tbacos
年輕30%,中年40%,年齡40%!= 100% 您的範圍內年輕人和中年人之間是否存在重疊? –