我正在使用PHP中的抓取腳本。我正在使用PHP簡單的HTML DOM解析器。對聚合網站的HTML進行抓取和處理
獲取HTML後,我只需要從每個頁面提取一些信息,並將這些信息聚合到我自己的網站上的HTML頁面。
我無法理解如何繼續此操作。
任何幫助表示讚賞。
新增
我想提取一些職位(如果涉及到一個特定的地理和主題)
我正在使用PHP中的抓取腳本。我正在使用PHP簡單的HTML DOM解析器。對聚合網站的HTML進行抓取和處理
獲取HTML後,我只需要從每個頁面提取一些信息,並將這些信息聚合到我自己的網站上的HTML頁面。
我無法理解如何繼續此操作。
任何幫助表示讚賞。
新增
我想提取一些職位(如果涉及到一個特定的地理和主題)
正則表達式可能是讓複雜的信息進行數據的方式,但對於簡單的標記你可以使用類似:
// URL從創建DOM或文件
$ HTML = file_get_html(' http://www.google.com/ ');
//查找所有圖片
的foreach($ HTML的>發現(' IMG ')爲$元素)
回聲$元素 - > SRC。 ' <br> ';
//找到所有環節
的foreach($ HTML的>發現('一個')爲$元素)
回聲$元素 - > HREF。 ' <br> ';
你可以做這樣的事情:
$doc = new DomDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXpath($doc);
$nodeList = $xpath->query("your-xpath-query");
foreach ($nodeList as $node) {
// grab the content, attributes or whatever you'r looking for
}
使用XPath查詢您不必手動遍歷DOM樹和腳本是針對你抓取網站的結構變化更穩健。
我希望能讓你走上正軌。有關更詳細的示例,您必須提供更多信息。
耶穌。你從哪裏開始。你需要一些策略來實現你想要做的事情。例如,你可以使用關鍵字文件的一些你想要提取的東西,你可以實現一個列表,指出你想要拉出什麼東西....很多方法來剝皮這隻貓...... – brumScouse 2010-12-08 08:35:51
什麼正是你想要提取....是電子郵件地址? – 2010-12-08 08:42:04