我所經營的網站上這樣的代碼:juventus.com.I可以解析標題Python:爲什麼網站不解析?
from urllib import urlopen
import re
webpage = urlopen('http://juventus.com').read()
patFinderTitle = re.compile('<title>(.*)</title>')
findPatTitle = re.findall(patFinderTitle, webpage)
print findPatTitle
輸出爲:
['Welcome - Juventus.com']
但如果在其他網站上的回報嘗試相同的代碼是什麼
from urllib import urlopen
import re
webpage = urlopen('http://bp1.shoguto.com/detail.php?userg=hhchpxqhacciliq').read()
patFinderTitle = re.compile('<title>(.*)</title>')
findPatTitle = re.findall(patFinderTitle, webpage)
print findPatTitle
有沒有人知道爲什麼?
該頁面被重定向到另一個..你是否關注重定向? – msturdy
不,我該怎麼做? –
我建議緩存網站並檢查保存的html頁面。檢查這是否是您想要的頁面。我注意到它需要身份驗證,但這不會成爲問題,因爲該頁面有標題。緩存它像文件(「cached.html」,「w」)。寫(網頁) – AliBZ