在PHP中解析格式不正確的HTML

在我的代碼中，我使用openoffice將一些樣式化的xls文檔轉換爲html。然後我使用xml_parser_create解析表格。問題是，openoffice創建oldschool html與未封閉的<BR>和<HR>標籤，它不會創建文檔類型，也不會引用屬性<TABLE WIDTH=4>。在PHP中解析格式不正確的HTML

我知道的php解析器不喜歡這樣，併產生XML格式錯誤。我目前的解決方案是在解析文件之前對文件運行一些正則表達式，但這既不好也不快。

你知道一個（希望包含的）php解析器，它不關心這些類型的錯誤嗎？或者，也許是一個快速的方法來修復一個'壞'的HTML？

來源

2010-02-28 Thomas Ahle

的解決方案「修復」破HTML可以使用HTMLPurifier（引用）：

HTML淨化器是用PHP編寫的符合標準的 HTML過濾庫。
HTML淨化器不僅會爲一個徹底的審計，安全又寬容的白名單中刪除所有惡意代碼（更好地稱爲 XSS），它 也將確保您的文檔符合

標準另一種想法可能會嘗試與DOMDocument::loadHTML（報價）加載你的HTML：

該函數解析字符串源中包含的的HTML。不像加載 XML，HTML不一定是格式良好的加載。

如果您要從文件加載HTML，請參閱DOMDocument::loadHTMLFile。

來源

2010-02-28 15:40:44

+1用於介紹htmlpurifier。也可以查看http://simplehtmldom.sourceforge.net/。 – Alexar 2010-02-28 16:43:48

淨化器很好，但對於這個問題，感覺有點過度。 DOMParser也是如此。這是不正確的，它將需要比簡單的薩克斯解析器更多的時間和內存？ – 2010-03-04 22:16:10

也許它會需要更多的RAM和時間;但它不僅僅是一個簡單的SAX解析，它只會讀取數據，而不會修復它;;;我會說一個SAX解析器將只能讀取有效的XML - 而HTMLPurifier和'DOMDocument :: loadHTML'都能夠讀取「破碎的」HTML。 – 2010-03-04 23:07:48

有SimpleHTML

對於修復損壞的HTML，你可以使用Tidy。

作爲替代方案，您可以使用本機XML Reader。因爲它在文檔流中作爲前進光標並停在路徑上的每個節點上，所以它不會在無效的XML文檔上中斷。

見http://www.ibm.com/developerworks/library/x-pullparsingphp.html

來源

2010-02-28 15:40:41 Gordon

+1爲Tidy。我發現它比SimpleHTML更強大。 2個獨立的工具真的可以完成2個不同的工作 – HappyTimeGopher 2012-06-12 14:12:57

您仍在使用PHP 4 XML API的任何特定原因？

如果您可以放棄使用PHP 5的XML API，那麼有兩種可能性。

首先，嘗試內置的HTML解析器。這真的不是很好（它往往會扼殺格式不正確的HTML），但它可能會伎倆。看看DomDocument :: LoadHTML。

第二個方案 - 你可以嘗試基於HTML5分析器規格的HTML解析器：

http://code.google.com/p/html5lib/

這往往工作比PHP內置HTML解析器更好。它將HTML加載到DomDocument對象中。

來源

2010-02-28 16:27:41 BlackAura

我寧願不使用dom解析器，因爲文檔相當大。（而且我已經爲薩克斯編寫了大量的代碼） – 2010-03-04 23:26:48

解決方案是使用DOMDocument。

實施例：

$str = " 
<html> 
<head> 
    <title>test</title> 
</head> 
<body> 
    </div>error. 
    <p>another error</i> 
</body> 
</html> 
"; 

$doc = new DOMDocument(); 
@$doc->loadHTML($str); 
echo $doc->saveHTML();

優勢：本機包括在PHP，違背PHP整齊。

來源

2017-01-11 10:34:05 Jerry

在PHP中解析格式不正確的HTML

回答

相關問題