我在他們不善形成的地址表格,我需要他們相當不錯的使用進行地理編碼。我已經嘗試了一些Python庫來解析地址,但他們無法弄清楚其中的一些。作爲一個例子,使用正則表達式和python移動城市地址塊,加符號
「N MONON AVE FRANCESVILLEW¯¯YELLOW ST」
的狀態爲所有這些是印第安納州,我沒有問題串聯成提交的字符串。在上面的例子中,它是一個交叉點,其地理編碼器不接受爲:
「N MONON AVE &W¯¯YELLOW ST FRANCESVILLE」
我的想法是最簡單的方法是找到之後的第一字街道類型(Ave,Dr,Ct等),將其移動到最後,並在其位置添加一個&符號。
我有這樣的代碼,這可能是效率極其低下,但它僅捕獲的第一條街道類型;在上面的例子中,它會輸出AVE。
/(Avenue|Lane|Road|Boulevard|Drive|Street|Ave|Dr|Rd|Blvd|Ln|St)[^(Avenue|Lane|Road|Boulevard|Drive|Street|Ave|Dr|Rd|Blvd|Ln|St)]/i
我不知道該怎麼做,就是告訴它在街道類型的第一個實例後立即抓取任何單詞。從那裏,我應該可以使用re.search和.group [n]來提取城市,並將其放入解析的字符串中。
見https://regex101.com/r/Am033H/1和http://ideone.com/UNgnAy。 –