我正在嘗試使用python掃描各種網站。以下代碼適合我。使用python獲取網頁正文中的內容
import urllib
import re
htmlfile =urllib.urlopen("http://google.com")
htmltext=htmlfile.read()
regex='<title>(.+?)</title>'
pattern=re.compile(regex)
title= re.findall(pattern,htmltext)
print title
要得到的主體內容,我改變了它如下:
import urllib
import re
htmlfile =urllib.urlopen("http://google.com")
htmltext=htmlfile.read()
regex='<body>(.+?)</body>'
pattern=re.compile(regex)
title= re.findall(pattern,htmltext)
print title
上面的代碼是給我一個空框支架。我不知道我做錯了什麼。請幫助
感謝您的想法。我對美麗的衣服沒有太多的知識,但是你的建議很棒。 – user2923505
效果很好。但是,您如何擺脫'
'和'標籤呢? – clemlaflemme