2017-09-28 52 views
-1

我已經在這裏搜索了幾次,所以如果這是一個重複的道歉。`dpylr`計數功能在字段中的唯一項

我正在與dplyr第一次合作,而且我很難提出我想要的。如果我在做SQL,查詢看起來像:

select count(customer_id), sum(sales), (sum(sales)/count(customer_id), * 
    from data_table 
group by salesperson_id 

在的話,我想:

  1. 組由銷售人員
  2. 數據加起來的總銷量
  3. 算獨特客戶的數量
  4. 找出每個銷售人員的平均每位客戶銷售額。

此時我不想剝去「無關」的字段,因爲它們在後面的步驟中會變得相關。

我陷入困境,特別是因爲唯一的計數功能dplyr規定不提供任何參數。 我應該使用什麼聚合函數來計算字段中不同的項目?

+1

您可以編輯您的問題,包括一些示例數據?例如,使用'dput(head(df))'(其中'df'是您正在使用的數據幀的名稱)? – markdly

回答

1

回答以下問題:我應該使用什麼聚合函數來計算字段中的不同項目?

n_distinct()

見文檔here

更廣泛的例子,雖然在原來的問題一個reprex將有助於:

data_table %>% 
    group_by(salesperson_id) %>% 
    mutate(
     customers = n_distinct(customer_id), 
     sales = sum(sales), 
     sales_per_customer = sales/customers 
    )