2011-06-01 40 views
5

我可以在「我很長的路上」找到我的目標,但希望完全保留在R.我希望通過郵政編碼將人口普查人口統計數據附加到我的數據庫中的記錄。我知道R有一些基於人口普查的軟件包,但除非我錯過了某些東西,否則這些數據似乎並不存在於郵政編碼層面,也不太適合合併到現有數據框架中。R代碼中的郵編人口統計信息

總之,是否有可能在R內做到這一點,或者是我最好的方法來獲取其他地方的數據並將其讀入R?

任何幫助將不勝感激!

回答

6

總之,沒有。人口普查拉鍊翻譯通常是由專有來源創建的。

從人口普查的角度(隱私),你不可能在郵編級別找到任何東西。然而,這並不意味着你處於寒風中。您可以使用您擁有的郵編,並從MSA,muSA或CSA級別追加人口普查數據。現在,您只需要在MSA,muSA或CSA中列出郵政編碼,以便合併即可。如果你還沒有這樣的列表,那麼網上有很多很便宜的。

例如,在加拿大,我們可以從FSA級別(形式爲A1A 1A1的郵政編碼的前三位數字)獲取CRA的收入數據。我不確定美國國稅局提供的是類似的信息,我也不太瞭解美國人口普查數據,但我想他們至少在CSA層面提供信息。

如果你通過所有這些縮寫困惑:

  1. MSA:http://en.wikipedia.org/wiki/Metropolitan_Statistical_Area
  2. CSA:http://en.wikipedia.org/wiki/Combined_statistical_area
  3. 穆薩:http://en.wikipedia.org/wiki/Micropolitan_Statistical_Area
+0

雖然,如果有人知道一個非專有拉鍊MSA名單我會非常樂意看到它。 – 2011-06-01 01:37:12

+0

人口普查局喜歡說「我們不接觸郵政編碼,不要問我們」,但請查看http://www.census.gov/population/www/metroareas/metroarea.html - 在最底部是郵政編碼到CBSAs(地鐵+微觀統計區域)的映射,雖然已有幾年歷史。儘管如此,它仍然很混亂,因爲沒有清晰的邊界,拉鍊直接映射到MSA,但這只是一個開始。啊,我曾經爲了謀生而沉溺於此......的美好回憶...... – Noah 2011-06-01 12:24:48

0

你最好的選擇可能是與U.S. Census Bureau TIGER/Line shapefiles。他們在州級有2010年郵政編碼區域形狀文件(ZCTA5),這可能足以滿足您的需要。

人口普查數據本身可以在American FactFinder找到。例如,您可以在縣級(即城市/城鎮)獲得人口估算值,但不能在郵編級別獲得直接人口估算值。我不知道數據集的詳細信息,但有一種解決方案可能需要使用關係表,這些關係表也可作爲TIGER/Line數據的一部分使用,或者在空間上加入包含人口普查數據的地名(子數據形狀文件)與ZCTA5代碼。

來自元數據的注意:「這些產品可以在產品或出版物中免費使用,但必須向美國人口普查局作爲來源予以確認。」

HTH

0

我只是寫A R包叫做totalcensushttps://github.com/GL-Li/totalcensus),使用它可以方便地提取在每十年一次的人口普查和ACS調查的任何數據。

對於這個老問題,如果你還在意,可以從2010年或2015年ACS五年調查的全國數據中獲得總人口(默認)和其他種族的人口。

從2015年ACS 5年調查。下載全國數據與download_census("acs5year", 2015, "US")然後:

zip_acs5 <- read_acs5year(
    year = 2015, 
    states = "US", 
    geo_headers = "ZCTA5", 
    table_contents = c(
     "white = B02001_002", 
     "black = B02001_003", 
     "asian = B02001_005" 
    ), 
    summary_level = "860" 
) 

#    GEOID  lon  lat ZCTA5 state population white black asian GEOCOMP SUMLEV  NAME 
#  1: 86000US01001 -72.62827 42.06233 01001 NA  17438 16014 230 639  all 860 ZCTA5 01001 
#  2: 86000US01002 -72.45851 42.36398 01002 NA  29780 23333 1399 3853  all 860 ZCTA5 01002 
#  3: 86000US01003 -72.52411 42.38994 01003 NA  11241 8967 699 1266  all 860 ZCTA5 01003 
#  4: 86000US01005 -72.10660 42.41885 01005 NA  5201 5062 40 81  all 860 ZCTA5 01005 
#  5: 86000US01007 -72.40047 42.27901 01007 NA  14838 14086 104 330  all 860 ZCTA5 01007 
# ---                          
# 32985: 86000US99923 -130.04103 56.00232 99923 NA   13 13  0  0  all 860 ZCTA5 99923 
# 32986: 86000US99925 -132.94593 55.55020 99925 NA  826 368  7  0  all 860 ZCTA5 99925 
# 32987: 86000US99926 -131.47074 55.13807 99926 NA  1711 141  0  2  all 860 ZCTA5 99926 
# 32988: 86000US99927 -133.45792 56.23906 99927 NA  123 114  0  0  all 860 ZCTA5 99927 
# 32989: 86000US99929 -131.60683 56.41383 99929 NA  2365 1643  5 60  all 860 ZCTA5 99929 

從2010年人口普查國家下載數據與download_census("decennial", 2010, "US"),然後:

zip_2010 <- read_decennial(
    year = 2010, 
    states = "US", 
    table_contents = c(
     "white = P0030002", 
     "black = P0030003", 
     "asian = P0030005" 
    ), 
    geo_headers = "ZCTA5", 
    summary_level = "860" 
) 

#    lon  lat ZCTA5 state population white black asian GEOCOMP SUMLEV 
#  1: -66.74996 18.18056 00601 NA  18570 17285 572  5  all 860 
#  2: -67.17613 18.36227 00602 NA  41520 35980 2210 22  all 860 
#  3: -67.11989 18.45518 00603 NA  54689 45348 4141 85  all 860 
#  4: -66.93291 18.15835 00606 NA  6615 5883 314  3  all 860 
#  5: -67.12587 18.29096 00610 NA  29016 23796 2083 37  all 860 
# ---                    
# 33116: -130.04103 56.00232 99923 NA   87 79  0  0  all 860 
# 33117: -132.94593 55.55020 99925 NA  819 350  2  4  all 860 
# 33118: -131.47074 55.13807 99926 NA  1460 145  6  2  all 860 
# 33119: -133.45792 56.23906 99927 NA   94 74  0  0  all 860 
# 33120: -131.60683 56.41383 99929 NA  2338 1691  3 33  all 860