我想寫一個機器人,每天將獲取html解析它。 現在爲解析HTML我可以使用只是字符串函數,如爆炸或校正表達式,但我發現DOM XPath代碼更乾淨,所以現在我可以配置所有的網站,我必須去掉蜘蛛和標籤,我必須去掉像:Dom和xpath查詢爲html解析
'http://examplesite.com' => '//div/a[@class="articleDesc"]/@href'
因此,代碼看起來像這樣
@$dom->loadHTML($html);
$xpath = new DOMXPath($dom);
$tags = $xpath->query('//body/div[@class="articleDesc"]');
foreach ($tags as $tag)
echo $tag->nodeValue . "\n";
本
所以我得到的所有div標籤與類文章的描述,這是我很大的。但我注意到div標籤內的所有html標籤都被剝離了。 我想知道如何獲得我正在查看的div的全部內容。
我也很難看到$ xpath-> query()的任何適當的文檔來查看如何形成字符串。這個php網站並沒有講述它的確切形式。儘管如此,我的主要問題我
查看http://stackoverflow.com/questions/2087103/innerhtml-in-phps-domdocument –
及其對應物http://stackoverflow.com/questions/5404941/php-domdocument-outerhtml-for-element/5404962 #5404962 – Gordon
XPath 1.0規格:http://www.w3.org/TR/xpath/ – Gordon