我使用PHP簡單的HTML DOM解析器從網頁獲取文本。 我需要處理的頁面是一樣的東西:使用PHP獲取文本簡單的HTML DOM解析器
<html>
<head>
<title>title</title>
<body>
<div id="content">
<h1>HELLO</h1>
Hello, world!
</div>
</body>
</html>
我需要得到h1
元素和沒有標記的文字。 得到h1
我用這個代碼:
$html = file_get_html("remote_page.html");
foreach($html->find('#content') as $text){
echo "H1: ".$text->find('h1', 0)->plaintext;
}
但是其他的文本? 我也試過這個進入的foreach,但我得到的全文:
$text->plaintext;
但H1
標籤...
爲什麼你想讓'plaintext'成員返回其他東西? – hakre 2012-03-24 18:14:35
我只需要'你好,世界!'部分,有可能嗎? – 2012-03-24 18:26:33
我想是這樣,但我不推薦簡單的HTML DOM解析器,而只是['DOMDocument'](http://php.net/DOMDocument)。那將是' - > nodeValue'。 – hakre 2012-03-24 18:51:57