2012-07-11 54 views
0

我必須處理一個項目,在該項目中我必須建立與網頁的連接,以便我可以從該頁面收集xml dtd模式片段並應用我的搜索它搜索用戶輸入的關鍵字。我已經在python中創建了算法,但不知道如何在python中建立連接,因爲我是新手。任何人都可以指導我嗎?建立與python中的某些網頁的連接

請幫助

+2

甚至沒有接近。 – 2012-07-11 12:04:22

+0

http://docs.python.org/library/urllib2.html – 2012-07-11 12:05:24

+0

一如既往,python stdlib是你的朋友。研究它,甚至還有一個特殊的[互聯網協議部分](http://docs.python.org/library/internet.html)。 – 2012-07-11 12:08:56

回答

2

如果你的意思只是抓取網頁,你可以嘗試這樣的:

import urllib2 
url = 'http://www.example.com/index.html' 
req = urllib2.Request(url) 
response = urllib2.urlopen(req) 
#now you can get the data by response.read() 
0

我不建議產卵插座等,爲HTTP,同時也有像的urllib2庫正如@fvwmer或我個人最喜歡的twill所提到的那樣,它是一種用於瀏覽網站,下載內容甚至填寫網絡表單的簡單腳本語言。

import re 
import twill 

go('http://www.stackoverflow.com') 
content = show() #saving content in a variable 
if re.search('some regex', content): 
     'do something'