2012-03-18 20 views
1

我是Python的初學者,我想從一個站點讀取信息,並在我的文本框(我使用EasyGUI)中輸出一些數據作爲輸出。我發現這是爲了獲得一個URL的HTML源代碼,但現在我想使用HTML輸出,我知道如何使用XML,我想這對HTML來說有點相同。有什麼方法可以處理元素和屬性?Python:從URL讀取HTML源代碼並獲得日期到程序

filehandle = urllib.urlopen('URL') 

for lines in filehandle.readlines(): 
    print lines 

filehandle.close() 

在此先感謝

+0

如果您知道如何使用xml。它基本上是一樣的。解析DOM。查看BeautifulSoup或http://docs.python.org/library/htmlparser.html。 – 2012-03-18 13:05:44

回答

3

至於建議,美麗的湯是一個庫,可以幫助你。顯示一個簡單的例子。

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(filehandle.read()) 
titleTag = soup.html.head.title 

Python也內置瞭解析器。 http://docs.python.org/library/htmlparser.html

BeautifulSoup非常善於處理破損的html,儘管如此。

0

如果您熟悉jQuery的語法來選擇HTML元素,您可能會發現pyquery有用。