2012-10-07 206 views
1

我願做一個網站源代碼解析這樣解析HTML頁面蟒蛇

If (something="<BODY>"): 
while (something!="</BODY>"): 
    if (something="https") : 
    put the word on a list 

事情是我不知道的方式來解析(我指的是哪些功能我閱讀了源代碼)。 我有一個對象的源代碼,即MyObj

這是最好的方法嗎?

回答

3

使用HTML解析庫來解析HTML。兩個流行的,好的是beautifulsouplxml

+0

有沒有辦法解析一個HTML文件而不使用這兩個庫?用正則表達式? –

+0

@georgemano:正則表達式不是解析HTML的正確工具。 – Blender

+0

@是否有任何方法可以解析,而不是像'beautifulsoup'和'lxml'那樣使用外部庫? –

2

Beautiful Soup是我用過的最好的HTML解析庫,請看看它。

+0

有沒有辦法解析一個HTML文件而不使用這個庫?用正則表達式什麼的? –