如何在Google上進行網絡抓取

我的要求是通過在線搜索關鍵字來對給定關鍵字進行報告。如何在Google上進行網絡抓取

我的計劃是，我的WebCrawler將

在谷歌搜索或谷歌，必應和雅虎
返回網站的冰或雅虎
打開網頁/鏈接關鍵字使用使報告這些頁面。

因爲我想做一個規則服從webcrawler。所以，當我看到這些網站的robots.txt我才知道，搜索引擎已經封鎖了WebCrawler的搜索關鍵字，如

google.com/robots.txt

User-agent: * 
Disallow: /search

我知道，如果我嘗試在搜索引擎上搜索關鍵字我的IP可能被阻止。

我的新計劃，我的WebCrawler將

搜索關鍵字的谷歌或冰或雅虎（最多2 - 在不同的時間跨度，每日3次）
打開網頁/鏈接的網站返回谷歌，bing或雅虎 （給予2-3分鐘的延遲打開每個網頁/鏈接返回搜索引擎）
使用這些網頁的報告。

問題

讓我知道，即使經過這麼多的保健將谷歌阻止我的IP ？這樣的網絡安全嗎？
也讓我知道使用代理隱藏/更改實際的IP地址的好技術。

PS：我使用Java和Jsoup爲webcrawling

來源

2017-09-15 Junaid

您應該使用搜索引擎提供的搜索API。這樣你不會被阻止（儘管搜索仍然有限）。 – Kayaman

嘗試硒，做你job.Its自動化，所以我不認爲你的ip會被任何服務提供商的阻塞。

來源

2017-09-15 05:29:17 Chauhan

它是一款測試軟件。你能讓我知道這有什麼用處嗎？ – Junaid

就像網頁上的任何人類點擊一樣，您可以使用硒來做到這一點，人們使用它來測試或監控生產服務器。同時，當您點擊某個網址或鏈接或點擊網頁中的任何地方時，您可以使用標準Java代碼從頁面收集數據。此鏈接將爲您提供幫助：https://stackoverflow.com/questions/34804319/selenium-webdriver-web-crawler – Chauhan

我不想抓取特定的網址。由於關鍵字未知，因此我們無法確定要抓取的網站和網址數量。 – Junaid

如何在Google上進行網絡抓取

回答

相關問題