對聚合網站的HTML進行抓取和處理

我正在使用PHP中的抓取腳本。我正在使用PHP簡單的HTML DOM解析器。對聚合網站的HTML進行抓取和處理

獲取HTML後，我只需要從每個頁面提取一些信息，並將這些信息聚合到我自己的網站上的HTML頁面。

我無法理解如何繼續此操作。

任何幫助表示讚賞。

新增

我想提取一些職位（如果涉及到一個特定的地理和主題）

2010-12-08 AJ.

耶穌。你從哪裏開始。你需要一些策略來實現你想要做的事情。例如，你可以使用關鍵字文件的一些你想要提取的東西，你可以實現一個列表，指出你想要拉出什麼東西....很多方法來剝皮這隻貓...... – brumScouse 2010-12-08 08:35:51

什麼正是你想要提取....是電子郵件地址？ – 2010-12-08 08:42:04

正則表達式可能是讓複雜的信息進行數據的方式，但對於簡單的標記你可以使用類似：

// URL從創建DOM或文件
$ HTML = file_get_html（' http://www.google.com/ '）;

//查找所有圖片
的foreach（$ HTML的>發現（' IMG '）爲$元素）
回聲$元素 - > SRC。 ' <br> ';

//找到所有環節
的foreach（$ HTML的>發現（'一個'）爲$元素）
回聲$元素 - > HREF。 ' <br> ';

來源

2010-12-08 08:40:59 Skorpioh

你可以做這樣的事情：

$doc = new DomDocument(); 
@$doc->loadHTMLFile($url); 
$xpath = new DOMXpath($doc); 
$nodeList = $xpath->query("your-xpath-query"); 
foreach ($nodeList as $node) { 
    // grab the content, attributes or whatever you'r looking for 
}

使用XPath查詢您不必手動遍歷DOM樹和腳本是針對你抓取網站的結構變化更穩健。

我希望能讓你走上正軌。有關更詳細的示例，您必須提供更多信息。

來源

2010-12-08 08:41:21 rik

對聚合網站的HTML進行抓取和處理

回答

相關問題