0
好奇心我試圖解析HTML針對cURL的保護網站?
$url = "http://www.continente.pt/stores/continente/pt-pt/public/Pages/subcategory.aspx?cat=Bebidas_Vinhos";
$agent= 'Googlebot-Image/1.0 Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)';
$ch = curl_init();
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
curl_setopt($ch, CURLOPT_VERBOSE, true);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
curl_setopt($ch, CURLOPT_USERAGENT, $agent);
curl_setopt($ch, CURLOPT_URL,$url);
$result=curl_exec($ch);
var_dump($result);
從商店超市的網站,我得到這個消息
錯誤 無法顯示此頁面。聯繫支持以獲取更多信息。 事件ID是:N/A。
我發現它很奇怪,他們對這種「攻擊」有一些保護,但他們如何保護這個網站,以及他們如何讓谷歌機器人抓取數字營銷目的?
最簡單的就是簡單地在超市的頁面
'curl'請求對我來說工作正常 –
我認爲我的問題是合法的。如果你的答案是有效的,甚至不檢查你。在Chrome中,我關閉了JavaScript並檢查腳本中的URL。該網站顯示每一個產品,沒有圖像,但信息在那裏。感謝負面的標誌。 –