由於我是SQL Server的新手,請耐心等待。我正在處理一個有大約2850個人的數據集,他們多次出現,大約有18,500行,所以雖然我可以手工編輯,但這需要一段時間。我想要做到以下幾點:正常化數據以便在SQL Server 2008中選擇獨特
SELECT DISTINCT ID, RACE
INTO new_table
FROM table_name;
但事實證明,我的比賽數據沒有得到很好的清理。如下所示,Person 27已被列爲白人和西班牙裔。不是每個人都有這個問題,但很多人都這麼做。
+----+----------+
| ID | RACE |
+----+----------+
| 27 | Hispanic |
| 27 | Hispanic |
| 27 | White |
| 27 | White |
| 27 | White |
| 27 | White |
+----+----------+
我希望通過數據來運行,採取使用列出的大部分比賽的情況下,並重新分配給他們,這樣我就可以SELECT DISTINCT。因此,它會從表上面去到:
+----+----------+
| ID | RACE |
+----+----------+
| 27 | White |
| 27 | White |
| 27 | White |
| 27 | White |
| 27 | White |
| 27 | White |
+----+----------+
我意識到,這可能需要多個步驟,但人有我怎麼能做到這一點,而不是手工清洗,或在Stata做一個想法或Excel?謝謝!
它可以寫成多個查詢,或者你想在簡單的大查詢做這項工作? – wmehanna
我更喜歡一個大的,但如果多個是最好的方式,那很好。 – seder163