在DOM中的DOMDocument

我剛剛開始閱讀有關DOM的文檔和示例，以便抓取和解析文檔。在DOM中的DOMDocument

，比如我有文件部分如下圖所示：

<div id="showContent"> 
    <table> 
    <tr> 
     <td> 
     Crap 
     </td> 
    </tr> 
<tr> 
      <td width="172" valign="top"><a href="link"><img height="91" border="0" width="172" class="" src="img"></a></td> 
      <td width="10">&nbsp;</td> 
      <td valign="top"><table cellspacing="0" cellpadding="0" border="0"> 
       <tbody><tr> 
       <td height="30"><a class="px11" href="link">title</a><a><br> 
        <span class="px10"></span> 
       </a></td> 
       </tr> 
       <tr> 
       <td><img height="1" width="580" src="crap"></td> 
       </tr> 
       <tr> 
       <td align="right"> 
        <a href="link"><img height="16" border="0" width="65" src="/buy"></a> 
       </td> 
       </tr> 
       <tr> 
       <td valign="top" class="px10"> 
        <p style="width: 500px;">description.</p> 
       </td> 
       </tr> 
      </tbody></table></td> 
     </tr> 
    <tr> 
     <td> 
Crap 
     </td> 
    </tr> 
    <tr> 
     <td> 
     Crap 
     </td> 
    </tr> 
    </table> 
    </div>

我嘗試使用下面的代碼來獲取所有tr標籤和分析是否有垃圾或信息在其內部：

$dom = new DOMDocument(); 
@$dom->loadHTML($html); 

$xpath = new DOMXPath($dom); 


$tags = $xpath->query('.//div[@id="showContent"]'); 
foreach ($tags as $tag) { 
    $string=""; 
    $string=trim($tag->nodeValue); 
    if(strlen($string)>3) { 
     echo $string; 
     echo '<br>'; 
    } 
}

但是我越來越剛剛剝離的字符串沒有標籤，例如：

Crap 

Crap 
Title 
Description

但我想獲得：

<tr> 
    <td>Crap</td> 
</tr> 
<tr> 
    <a href="link">title</a> 
</tr>

如何保持HTML節點（標籤）？

來源

2011-02-12 Saikios

請參閱[PHP的DOMDocument中的innerHTML]（http://stackoverflow.com/questions/2087103/innerhtml-in-phps-domdocument）。 – netcoder 2011-02-12 18:45:17

您的XPath與div匹配。要獲得顯示的HTML，您必須使用不同的XPath查詢/查詢，然後將結果傳遞給`echo $ dom-> save（$ node）`。請澄清你想要得到什麼。 – Gordon 2011-02-12 18:53:49

@netcoder innerHTML在這裏根本不需要。 – Gordon 2011-02-12 18:57:58

如果你想使用DOM，你必須理解這個概念。 DOM文檔中的所有內容（包括DOMDocument）都是一個節點。

DOMDocument是節點的分層樹結構。它從一個根節點開始。該根節點可以有子節點，並且所有這些子節點都可以有自己的子節點。基本上，DOMDocument中的所有內容都是某種類型的節點類型，無論是元素，屬性還是文本內容。

  HTML        Legend: 
     / \        UPPERCASE = DOMElement 
     HEAD BODY       lowercase = DOMAttr 
    /  \       "Quoted" = DOMText 
    TITLE  DIV - class - "header" 
    |    \ 
"The Title"  H1 
        | 
      "Welcome to Nodeville"

上圖顯示了一個DOMDocument與一些節點。有兩個孩子（HEAD和BODY）的根元素（HTML）。連接線稱爲軸。如果沿着軸向TITLE元素的方向，你會看到它有一個DOMText葉子。這很重要，因爲它說明了一個經常被忽視的東西：

<title>The Title</title>

不是一個，而是兩個節點。帶有DOMText子元素的DOME元素。同樣，這也是

<div class="header">

實際上是三個節點：帶有DOMAttr的DOMElement持有DOMText。因爲所有這些都從DOMNode繼承了它們的屬性和方法，所以必須熟悉

實際上，這意味着您提取的DIV鏈接到文檔中的所有其他節點。任何時候你都可以一直到根部，或者一直到葉子。它在那裏。您只需查詢或遍歷文檔以獲取所需的信息。

無論你是通過迭代的DIV還是使用getElementByTagName()或XPath都由你決定。您只需要瞭解您不是使用原始HTML，而是使用代表整個HTML文檔的節點。

如果您需要從文檔中提取特定信息的幫助，則需要說明要從中提取哪些信息。例如，你可以問如何獲取從表中的所有環節，那麼我們就可以回答是這樣的：

$div = $dom->getElementById('showContent'); 
foreach ($div->getElementsByTagName('a') as $link) 
{ 
    echo $dom->saveXML($link); 
}

但除非你是更具體的，我們只能猜測哪些節點可能是相關的。

如果您需要關於如何使用DOM工作更多的例子和代碼段通過我以前的答案瀏覽到相關的問題：

https://stackoverflow.com/search?q=user%3A208809+DOM

到現在爲止，應該有每一個片段基本到中等UseCase您可能會使用DOM。

來源

2011-02-13 10:54:36 Gordon

要創建解析器，您可以使用htmlDOM。

這是非常簡單易用的使用PHP編寫的DOM解析器。通過使用它，您可以輕鬆獲取div標籤的內容。

例如，查找所有div標籤，其屬性值id的值爲text。

$ret = $html->find('div[id=text]');

來源

2014-03-12 08:25:15 lokeshsk

在DOM中的DOMDocument

回答

相關問題