Q

如何從谷歌搜索結果頁面獲取完整的HTML內容

2017-04-18 119 views 0 likes

0

我是網絡爬蟲的新手，感謝您的幫助。我需要執行的任務是從Google搜索中獲取完整的返回HTTP響應。當谷歌在瀏覽器中的搜索關鍵字搜索，在返回頁面中，有一章節：如何從谷歌搜索結果頁面獲取完整的HTML內容

相關搜索XXXX（XXXX爲搜索詞）

我需要提取網頁的這一部分頁。從我的研究中，目前大多數關於谷歌爬行的軟件包都無法提取這部分信息。我試圖使用的urllib2，用下面的代碼：

import urllib2 
url = "https://www.google.com.sg/search? q=test&ie=&oe=#q=international+business+machine&spf=187" 
req = urllib2.Request(url, headers={'User-Agent' : 'Mozilla/5.0'}) 
con = urllib2.urlopen(req) 
strs = con.read() 
print strs

我得到一大塊文本，它看起來像合法的HTTP響應，但在文本中，沒有涉及到我的搜索鍵的任何內容「國際商業機器「。我知道Google可能會檢測到這不是來自實際瀏覽器的請求，因此隱藏此信息。我是否可以知道是否有任何方法繞過此問題並獲得谷歌搜索結果的「相關搜索」部分？謝謝。

2017-04-18 user1750197

+0

http://stackoverflow.com/questions/38619478 /谷歌搜索的Web刮與 - 蟒蛇;試試這個解決方案 – anonyXmous

+0

@anonyXmous。非常感謝。簡單和像魅力一樣工作。訣竅是使用：從請求導入獲取 – user1750197

A

回答

0

正如@anonyXmous指出的那樣。在有用的帖子指是在這裏：

Google Search Web Scraping with Python

與

from requests import get 
keyword = "internation business machine" 
url = "https://google.com/search?q="+keyword 
raw = get(url).text 
print raw

我能夠獲得「原始」所需要的文本

2017-04-18 06:38:05 user1750197

相關問題