我認爲這個問題已經在這裏回答過,但我找不到想要的主題。我是網絡抓取的新手。我必須開發一個腳本,將採取所有谷歌搜索結果爲特定的名稱。然後它將抓住相關的數據對該名稱,如果發現多個,數據將根據他們的名字進行分組。刮一個特定名稱的所有谷歌搜索結果
我所知道的是,谷歌對scraping有一些限制。他們提供了一個自定義搜索API。我仍然沒有使用該API,但希望得到所有的結果鏈接對應於該API的查詢。但是,無法理解什麼是理想的過程來從該鏈接中獲取信息。任何教程鏈接或建議都非常感謝。
我認爲這個問題已經在這裏回答過,但我找不到想要的主題。我是網絡抓取的新手。我必須開發一個腳本,將採取所有谷歌搜索結果爲特定的名稱。然後它將抓住相關的數據對該名稱,如果發現多個,數據將根據他們的名字進行分組。刮一個特定名稱的所有谷歌搜索結果
我所知道的是,谷歌對scraping有一些限制。他們提供了一個自定義搜索API。我仍然沒有使用該API,但希望得到所有的結果鏈接對應於該API的查詢。但是,無法理解什麼是理想的過程來從該鏈接中獲取信息。任何教程鏈接或建議都非常感謝。
你應該多提供一些你一直在做的事情,它聽起來不像你甚至試圖自己解決它。
無論如何,如果你仍然在它:
您可以通過兩種途徑刮谷歌,一個是允許一個是不允許的。
a)使用他們的API,你每天可以獲得2k左右的結果。
2000美元/年,您可以將其升至每天3k左右。你可以通過直接與他們聯繫來增加它。
如果您只需要較少數量的請求,並且主要根據選擇的關鍵字獲取某些網站,則無法從此方法獲得準確的排名位置。
起點就在這裏:https://code.google.com/apis/console/
b)你可以刮真正的搜索結果
這是獲得真正的排序位置,搜索引擎優化的目的,或以跟蹤網站位置的唯一途徑。如果做得對,它也可以獲得大量的結果。
您可以谷歌代碼,我知道最先進的免費(PHP)代碼是http://scraping.compunect.com
但是,還有其他項目和代碼片段。
您可以每天從300-500個請求開始,這可以乘以多個IP。如果你想要去那條路線看看鏈接的文章,它會更詳細地解釋它,並且相當準確。
也就是說,如果你選擇路線b)你打破谷歌條款,所以要麼不接受它們,要麼確保你沒有被發現。如果Google檢測到您,您的腳本將被IP /驗證碼禁止。未被發現應該是一個優先事項。