我有一個大的數據框(df),看起來像下面的示例。數據集中有許多數據輸入錯誤,我需要刪除這些錯誤。在樣本數據中的所有新南威爾士州國家應該有一個郵政編碼開頭2.所有VIC國家應該有一個郵編開始3根據多個條件從DF中刪除數據
| Suburb | State | Postcode |
| ------ | ----- | -------- |
| FLEMINGTON | NSW | 2140 |
| FLEMINGTON | NSW | 2144 |
| FLEMINGTON | NSW | 3996 |
| FLEMINGTON | VIC | 2996 |
| FLEMINGTON | VIC | 3021 |
| FLEMINGTON | VIC | 3031 |
我需要的決賽桌的樣子......
| Suburb | State | Postcode |
| ------ | ----- | -------- |
| FLEMINGTON | NSW | 2140 |
| FLEMINGTON | NSW | 2144 |
| FLEMINGTON | VIC | 3021 |
| FLEMINGTON | VIC | 3031 |
下面的解決方案是有點緊密,但我不知道如何過濾整數,從一個特定的數字開始,並在時間壓力下。
Extracting rows from df based on multiple conditions in R
任何幫助將不勝感激。
像夢一樣工作。 :) –
或者通過計算頻率setDT(df)[,N:= .N,。(substr(Postcode,1,1),State)] [,.SD [N == max(N)] ,狀態] [,N:= NULL] []' – akrun