我想知道創建CUSTOMER_RANDOM_VALUE(0到100之間)是否常見,以便處理隨機樣本而不是整個數據庫。處理樣本而不是整個數據庫
我們舉一個例子:管理Webstore的CDW並使用增量CustomerID。
如果你想知道誰訪問特定產品的頁面的用戶數的,你需要做的是:
SELECT COUNT(DISTINCT CUSTOMER_ID)
FROM WEBSITE_TRAFFIC
WHERE PRODUCT_KEY= 134
問題是這樣的表是如此巨大,這可能需要1小時就知道這一點,你必須整天回答很多這類問題。
爲什麼不爲每個客戶創建一個random_value:
Customer_Id | Random Value
1 13
2 41
3 8
4 87
和1%這樣的一個樣本工作:
SELECT COUNT(DISTINCT CUSTOMER_ID)
FROM WEBSITE_TRAFFIC
WHERE PRODUCT_KEY= 134
AND CUSTOMER_RANDOM_VALUE<1
問題:它是一個共同的初步實踐時數據量很大,要使用CUSTOMER_RANDOM_VALUE進行採樣。
一個好的做法是擁有一個空的數據庫。然後,有可以發出一系列插入來加載示例數據的腳本。然後,任何開發人員都可以擁有自己的示例數據庫來處理他的代碼。 –
我永遠不會做你正在考慮的事情。我會添加一個索引到我在where子句中使用的字段。另外,對於您的具體示例,我會在where子句中添加日期範圍。 –