我建立一個網站爬蟲,並使用這些選項cURL class爲獲得頭,這樣我就可以下載完整的網站非常它text/html
和低於指定大小之前提取其mime/type
和content-length
限制。curl_getinfo返回-1爲內容長度
這些都是我的捲曲選項
$c->setopt(CURLOPT_URL, $theURL);
$c->setopt(CURLOPT_HEADER, false);
$c->setopt(CURLOPT_RETURNTRANSFER, true);
$c->setopt(CURLOPT_TIMEOUT, 10);
$c->setopt(CURLOPT_CONNECTTIMEOUT, 10);
$c->setopt(CURLOPT_NOBODY, TRUE);
$c->setopt(CURLOPT_FOLLOWLOCATION, TRUE);
$c->setopt(CURLOPT_MAXREDIRS, 2);
// Within Class
$theReturnValue = curl_exec($this->m_handle);
$this->m_status = curl_getinfo($this->m_handle) ;
,但它總是返回[download_content_length] => -1
即使沒有CURLOPT_NOBODY
然而retrived數據(整個文件)是正確的。
也許服務器ISN」發送「內容長度」標題? – drudge 2011-04-01 20:22:07
對不起,沒有足夠的信息(我已經編輯了問題)..但是,這似乎確實如此,當我想檢索html頁面時應該怎麼做? – Shishant 2011-04-01 20:28:18