2017-04-18 54 views
0

我是網絡爬蟲的新手,感謝您的幫助。我需要執行的任務是從Google搜索中獲取完整的返回HTTP響應。當谷歌在瀏覽器中的搜索關鍵字搜索,在返回頁面中,有一章節:如何從谷歌搜索結果頁面獲取完整的HTML內容

相關搜索XXXX(XXXX爲搜索詞)

我需要提取網頁的這一部分頁。從我的研究中,目前大多數關於谷歌爬行的軟件包都無法提取這部分信息。我試圖使用的urllib2,用下面的代碼:

import urllib2 
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187" 
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'}) 
con = urllib2.urlopen(req) 
strs = con.read() 
print strs 

我得到一大塊文本,它看起來像合法的HTTP響應,但在文本中,沒有涉及到我的搜索鍵的任何內容「國際商業機器「。我知道Google可能會檢測到這不是來自實際瀏覽器的請求,因此隱藏此信息。我是否可以知道是否有任何方法繞過此問題並獲得谷歌搜索結果的「相關搜索」部分?謝謝。

+0

http://stackoverflow.com/questions/38619478 /谷歌搜索的Web刮與 - 蟒蛇;試試這個解決方案 – anonyXmous

+0

@anonyXmous。非常感謝。簡單和像魅力一樣工作。訣竅是使用: 從請求導入獲取 – user1750197

回答

0

正如@anonyXmous指出的那樣。在有用的帖子指是在這裏:

Google Search Web Scraping with Python

from requests import get 
keyword = "internation business machine" 
url = "https://google.com/search?q="+keyword 
raw = get(url).text 
print raw 

我能夠獲得 「原始」 所需要的文本