2016-05-16 49 views
1

我是一個編程新手,我試圖爲電視劇列表網站做一個解析「機器人」,但第一部分有問題 - 獲取正確的頁面源。 更具體地說,我想從「www.lostfilm.tv/browse.php?cat=145」專題節目列表,但與此代碼:python請求重定向到另一個url

import requests 
lf_game_url = 'http://www.lostfilm.tv/browse.php?cat=145' 
lf_game_source = requests.get(lf_game_url, allow_redirects=False).text 

我得到別人的頁面源代碼(」 www.yandex.ru「)和

request = requests.get(lf_game_url, allow_redirects=False) 
print request.status_code 

是301,儘管任何瀏覽器都能正常工作! 也許我錯過了一些東西,比如我需要傳遞給請求的HTML標頭,但是我被困住了,並且非常感謝任何幫助。

回答

1

找到了非常簡單的解決方案。只需在請求中添加一個假的「用戶代理」標頭,如:

headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'} 
... 
request = requests.get(lf_game_url, allow_redirects=False, headers=headers) 
相關問題