我試圖以編程方式(在Python中)從this網站檢索帳戶信息以獲取我擁有的屬性列表(由BRT編號標識)。第一次刮板的一些微移
這應該是非常簡單的,我已經閱讀了一些我通過Google找到的東西,但是這完全在我的頭上,因爲我沒有網頁開發經驗,所以所有的白話都是單耳退房手續最等。
的程序應該是很簡單的,因爲網頁看起來很樸實無華:
- 設置
brt
,例如883309000
。 - 打開網址:
http://www.phila.gov/revenue/RealEstateTax/default.aspx
。 - 選擇
by BRT Number
字段並輸入brt
。 - 單擊
>>
按鈕檢索屬性信息。 刮底線(
TOTALS
)和準確-迄今爲止,在這種情況下:總計$ 13,359.83 $ 2,539.14 $ 1,417.73 $ 1,645.59 $ 18,962.29
和
06/30/2015
我主要停留在步驟3和4,據我已經收到如:
import mechanize
from bs4 import BeautifulSoup
br = mechanize.Browser()
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.118 Safari/537.36')]
br.open('http://www.phila.gov/revenue/RealEstateTax/default.aspx')
soup = BeautifulSoup(br.response().read())
#Here's the BRT Number field
soup.find("input",{"id":"ctl00_BodyContentPlaceHolder_SearchByBRTControl_txtTaxInfo"})
#Here's the "Lookup by BRT" button
soup.find("input",{"id":"ctl00_BodyContentPlaceHolder_SearchByBRTControl_btnTaxByBRT"})
但我真的失去了什麼從那裏做。任何幫助,將不勝感激。
這工作很好!我現在只是擔心它會很慢,因爲我需要這樣做24,000次 – MichaelChirico
可能需要一段時間。也許在超低服務器時間(通宵)時運行腳本,也許在每次迭代之後幾秒鐘內出現隨機延遲?祝你好運。 – par