2013-08-26 29 views
1

我試圖從健康檢查網站檢索信息,然後解析數據並將其保存到變量,然後將記錄保存到文件中。我想我可以使用字典來存儲每項業務的信息。需要使用Python 2.x解析特定網站

相關網站是:http://www.swordsolutions.com/Inspections

點擊網站上的[搜索]將開始顯示信息。

我需要能夠傳遞一些搜索數據到網站,然後解析返回到變量,然後到文件的信息。

我取的網站使用一個文件:

import urllib 
u = urllib.urlopen('http://www.swordsolutions.com/Inspections') 
data = u.read() 
f = open('data.html', 'wb') 
f.write(data) 
f.close() 

這是由urllib的檢索的數據:http://bpaste.net/show/126433/,目前沒有顯示任何有用的東西。

任何想法?

+0

你需要從網站上獲得什麼數據? – alecxe

+0

現在我只是希望得到[姓名,地址,日期,備註],但至少我需要能夠「選擇一個城市」,並按下python搜索按鈕,如果這是有道理的。 –

+0

您可能想在這裏使用像'mechanize'這樣的庫,而不是試圖弄清楚如何從頭開始自動化搜索網站。您_definitely_想要使用HTML解析器('BeautifulSoup',其中一個stdlib,'lxml'之一等)來查找您的值。你真的需要嘗試一些東西,並顯示你在什麼地方停滯,然後才能在SO上獲得更具體和有用的答案,因爲這個網站不適合交互式地引導你完成設計和開發過程。 – abarnert

回答

0

我只是推薦你。

您想要提交具有多個預定義字段值的表單。然後你想解析返回的數據。然後,接下來的步驟取決於是否容易自動化該表單發佈請求。

你有足夠的選擇這裏:

  • 使用瀏覽器的開發者工具分析到底是怎麼回事,而點擊「提交」。然後,如果有一個簡單的POST請求 - 模擬它使用urllib2requestsmechanize或任何你喜歡
  • 給一個嘗試Scrapy和它的FormRequest
  • 使用一個真正的自動化瀏覽器的selenium幫助。填充數據到字段中,使用同一個工具(硒)點擊提交,獲取和解析數據

基本上,去自動瀏覽工具,如selenium

另外,請注意,有幾種解析HTML的工具:BeautifulSoup,lxml

另見:

希望有所幫助。

+0

非常感謝! –