2010-12-08 21 views
0

我正在使用PHP中的抓取腳本。我正在使用PHP簡單的HTML DOM解析器。對聚合網站的HTML進行抓取和處理

獲取HTML後,我只需要從每個頁面提取一些信息,並將這些信息聚合到我自己的網站上的HTML頁面。

我無法理解如何繼續此操作。

任何幫助表示讚賞。

新增

我想提取一些職位(如果涉及到一個特定的地理和主題)

+1

耶穌。你從哪裏開始。你需要一些策略來實現你想要做的事情。例如,你可以使用關鍵字文件的一些你想要提取的東西,你可以實現一個列表,指出你想要拉出什麼東西....很多方法來剝皮這隻貓...... – brumScouse 2010-12-08 08:35:51

+0

什麼正是你想要提取....是電子郵件地址? – 2010-12-08 08:42:04

回答

0

正則表達式可能是讓複雜的信息進行數據的方式,但對於簡單的標記你可以使用類似:


// URL從創建DOM或文件
$ HTML = file_get_html(' http://www.google.com/ ');

//查找所有圖片
的foreach($ HTML的>發現(' IMG ')爲$元素)
回聲$元素 - > SRC。 ' <br> ';

//找到所有環節
的foreach($ HTML的>發現('一個')爲$元素)
回聲$元素 - > HREF。 ' <br> ';

0

你可以做這樣的事情:

$doc = new DomDocument(); 
@$doc->loadHTMLFile($url); 
$xpath = new DOMXpath($doc); 
$nodeList = $xpath->query("your-xpath-query"); 
foreach ($nodeList as $node) { 
    // grab the content, attributes or whatever you'r looking for 
} 

使用XPath查詢您不必手動遍歷DOM樹和腳本是針對你抓取網站的結構變化更穩健。

我希望能讓你走上正軌。有關更詳細的示例,您必須提供更多信息。