HTML DOM：如何正確使用textContent屬性與PHP

每當我嘗試走到一個HTML文件的DOM（我只對文本元素感興趣），如果我指向節點的textContent屬性，它會回顯該特定節點樹中的所有文本。例如：HTML DOM：如何正確使用textContent屬性與PHP

<html lang="en"> 
<body> 
    <p> 1st text I need</p> 
    <a href="#">2nd text I need</a> 
    <table> 
     <tr> 
      <td>3rd text I need</td> 
     </tr> 
    </table> 
</body> 
</html>

導致以下：

#document 
html 
html 1st text I need 2nd text I need 3rd text I need 
body 1st text I need 2nd text I need 3rd text I need 
p 1st text I need 
a 2nd text I need 
table 3rd text I need 
tr 3rd text I need 
td 3rd text I need

我想提取有直接的文本內容元素文本唯一。在上面的例子中，他們將是p,a和td。

我該怎麼做？

下面的代碼（從here提取）：

<?php 

$doc = new DOMDocument(); 
@$doc->loadHTMLFile('test.html'); 
walkDom($doc); 


function walkDom($node, $level = 0) 
{ 
$indent = ''; 
for ($i = 0; $i < $level; $i++) 
$indent .= ' '; //prettifying the output 
if($node->nodeType != XML_TEXT_NODE) { 
    echo $indent .'<b>' . $node->nodeName .'</b>'; 
    if($node->nodeType == XML_ELEMENT_NODE) { 
     echo $node->textContent; 
    } 
    echo '<br>'; 
} 
    $cNodes = $node->childNodes; 
    if (count($cNodes) > 0) 
    { 
     $level++; // go one level deeper 
     foreach($cNodes as $cNode) 
     walkDom($cNode, $level); 
     $level = $level - 1; 
    } 
}

來源

2017-02-04 Paulo Hgo

您可以在DOM文檔使用XPath。 text()返回所有文本節點。

$doc = new DOMDocument; 
$doc->loadhtml('<html lang="en"> 
<body> 
    <p> 1st text I need</p> 
    <a href="#">2nd text I need</a> 
    <table> 
     <tr> 
      <td>3rd text I need</td> 
     </tr> 
    </table> 
</body> 
</html>'); 
$doc->normalizeDocument(); 
$xpath = new DOMXpath($doc); 
$results = $xpath->query("//text()"); 
foreach($results as $node) { 
    echo trim($node->wholeText); 
}

來源

2017-02-04 00:26:07 miken32

謝謝，這是有效的。是否可以修改這些文本元素（這是我的最終目標，我忘了提及）？ –

這將是一個完全不同的問題。 – miken32

公平點。我會提出另一個問題。感謝您的回答。 –

HTML DOM：如何正確使用textContent屬性與PHP

回答

相關問題