2017-09-15 70 views
0

我的要求是通過在線搜索關鍵字來對給定關鍵字進行報告。如何在Google上進行網絡抓取

我的計劃是,我的WebCrawler將

  1. 在谷歌搜索或谷歌,必應和雅虎
  2. 返回網站的冰或雅虎
  3. 打開網頁/鏈接關鍵字使用使報告這些頁面。

因爲我想做一個規則服從webcrawler。所以,當我看到這些網站的robots.txt我才知道,搜索引擎已經封鎖了WebCrawler的搜索關鍵字,如

google.com/robots.txt

User-agent: * 
Disallow: /search 

我知道,如果我嘗試在搜索引擎上搜索關鍵字我的IP可能被阻止。

我的新計劃,我的WebCrawler將

  1. 搜索關鍵字的谷歌或冰或雅虎(最多2 - 在不同的時間跨度,每日3次 )
  2. 打開網頁/鏈接的網站返回谷歌,bing或雅虎 (給予2-3分鐘的延遲打開每個網頁/鏈接返回搜索引擎)
  3. 使用這些網頁的報告。

問題

  1. 讓我知道,即使經過這麼多的保健將谷歌阻止我的IP ?這樣的網絡安全嗎?
  2. 也讓我知道使用代理隱藏/更改 實際的IP地址的好技術。

PS:我使用Java和Jsoup爲webcrawling

+2

您應該使用搜索引擎提供的搜索API。這樣你不會被阻止(儘管搜索仍然有限)。 – Kayaman

回答

0

嘗試,做你job.Its自動化,所以我不認爲你的ip會被任何服務提供商的阻塞。

+0

它是一款測試軟件。你能讓我知道這有什麼用處嗎? – Junaid

+0

就像網頁上的任何人類點擊一樣,您可以使用硒來做到這一點,人們使用它來測試或監控生產服務器。同時,當您點擊某個網址或鏈接或點擊網頁中的任何地方時,您可以使用標準Java代碼從頁面收集數據。此鏈接將爲您提供幫助:https://stackoverflow.com/questions/34804319/selenium-webdriver-web-crawler – Chauhan

+0

我不想抓取特定的網址。由於關鍵字未知,因此我們無法確定要抓取的網站和網址數量。 – Junaid