獲取URL的處理內容

我想檢索網頁的內容，並檢查頁面是否包含我正在監控的某些錯誤關鍵字。（而不是每次手動加載每個URL來檢查網站，我希望以編程方式執行此操作，並在出現錯誤時標記出錯誤）獲取URL的處理內容

我試過XMLHttpRequest。我能夠獲取HTML內容，就像我在頁面上「查看源代碼」時看到的一樣。但是我監視的頁面在Sharepoint上運行，Web部件是動態生成的。我相信，如果在加載這些部分時發生錯誤，我將無法將它們標記出來，因爲我抽取的HTML不會包含錯誤，而只是通常的Web部件路徑。

cURL似乎也這樣做。我剛剛閱讀了關於DOMDocument的信息，並且想知道DOMDocument是處理代碼還是僅僅將HTML分解爲分層結構。

我只希望擁有該網址的內容。（就像在IE中將網站保存爲txt時所得到的一樣，而不是HTML）。或者如果我可以進一步處理HTML，那麼它也會很好。我怎樣才能做到這一點？任何幫助將非常感激。 :)

來源

2012-07-17 user1531773

要清楚你想從網絡上刪除HTML標記並獲得唯一剩餘的數據？ – Nish 2012-07-17 13:16:44

你好，我希望得到處理後的內容，就像在加載javascript和生成內容之後。不是一個查看源的JavaScript和功能仍然存在，然後剝離他們的標籤。我應該舉個例子來更好地解釋我自己:) – user1531773 2012-07-17 16:23:48

爲什麼要剝離HTML？最好使用它！

$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); 
$data = curl_exec($ch); 
curl_close($ch); 

// libxml_use_internal_errors(true); 
$oDom = new DomDocument(); 
$oDom->loadHTML($data); 

// Go through DOM and look for error (it's similar if it'd be 
// <p class="error">error message</p> or whatever) 
$errors = $oDom->getElementsByTagName("error"); // or however you get errors 
foreach($errors as $error) { 
    if(strstr($error->nodeValue, 'SOME ERROR')) { 
     echo 'SOME ERROR occurred'; 
    } 
}

如果你不想做，你可以這樣做：

$ch = curl_init(); 
curl_setopt($ch, CURLOPT_URL, $url); 
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); 
$data = curl_exec($ch); 
curl_close($ch); 
if(strstr($data, 'SOME_ERROR')) { 
    echo 'SOME ERROR occurred'; 
}

來源

2012-07-17 13:33:12 Doa

Hi Dow！謝謝回答！我相信我必須去掉HTML，因爲我蜷縮在一起的網站是一個SharePoint站點，可能有錯誤的地方將成爲動態內容。查看源未顯示其中的內容。所以如果我的支票是基於這個字符串的話，我認爲我不會發現錯誤。 – user1531773 2012-07-17 16:18:03

查看源文件是不是顯示內容？所以內容是從Javascript生成的？在那種情況下，它會變得更加困難.. – Doa 2012-07-18 08:33:44

erm yes。內容是從Javascript生成的。有什麼方法可以檢索內容嗎？ – user1531773 2012-07-18 15:54:34

獲取URL的處理內容

回答

相關問題