我的要求是通過在線搜索關鍵字來對給定關鍵字進行報告。如何在Google上進行網絡抓取
我的計劃是,我的WebCrawler將
- 在谷歌搜索或谷歌,必應和雅虎
- 返回網站的冰或雅虎
- 打開網頁/鏈接關鍵字使用使報告這些頁面。
因爲我想做一個規則服從webcrawler。所以,當我看到這些網站的robots.txt
我才知道,搜索引擎已經封鎖了WebCrawler的搜索關鍵字,如
google.com/robots.txt
User-agent: *
Disallow: /search
我知道,如果我嘗試在搜索引擎上搜索關鍵字我的IP可能被阻止。
我的新計劃,我的WebCrawler將
- 搜索關鍵字的谷歌或冰或雅虎(最多2 - 在不同的時間跨度,每日3次 )
- 打開網頁/鏈接的網站返回谷歌,bing或雅虎 (給予2-3分鐘的延遲打開每個網頁/鏈接返回搜索引擎)
- 使用這些網頁的報告。
問題
- 讓我知道,即使經過這麼多的保健將谷歌阻止我的IP ?這樣的網絡安全嗎?
- 也讓我知道使用代理隱藏/更改 實際的IP地址的好技術。
PS:我使用Java和Jsoup爲webcrawling
您應該使用搜索引擎提供的搜索API。這樣你不會被阻止(儘管搜索仍然有限)。 – Kayaman