Python：從URL讀取HTML源代碼並獲得日期到程序

我是Python的初學者，我想從一個站點讀取信息，並在我的文本框（我使用EasyGUI）中輸出一些數據作爲輸出。我發現這是爲了獲得一個URL的HTML源代碼，但現在我想使用HTML輸出，我知道如何使用XML，我想這對HTML來說有點相同。有什麼方法可以處理元素和屬性？Python：從URL讀取HTML源代碼並獲得日期到程序

filehandle = urllib.urlopen('URL') 

for lines in filehandle.readlines(): 
    print lines 

filehandle.close()

在此先感謝

來源

2012-03-18 Confituur

如果您知道如何使用xml。它基本上是一樣的。解析DOM。查看BeautifulSoup或http://docs.python.org/library/htmlparser.html。 – 2012-03-18 13:05:44

至於建議，美麗的湯是一個庫，可以幫助你。顯示一個簡單的例子。

from BeautifulSoup import BeautifulSoup 
soup = BeautifulSoup(filehandle.read()) 
titleTag = soup.html.head.title

Python也內置瞭解析器。 http://docs.python.org/library/htmlparser.html

BeautifulSoup非常善於處理破損的html，儘管如此。

來源

2012-03-18 13:21:11 dm03514

如果您熟悉jQuery的語法來選擇HTML元素，您可能會發現pyquery有用。

來源

2012-03-18 13:37:55

Python：從URL讀取HTML源代碼並獲得日期到程序

回答

相關問題