1
我試圖創建一個簡單的工具來解析html文件。解析不帶xpath的HTML
具體而言,我需要它從div
標籤中獲得所有name
屬性。
我的HTML字符串各不相同,我沒有任何控制權,所以如果我嘗試使用xpath,我會傾向於獲取錯誤,因爲HTML不是100%正確寫入。
任何想法?
感謝,
我試圖創建一個簡單的工具來解析html文件。解析不帶xpath的HTML
具體而言,我需要它從div
標籤中獲得所有name
屬性。
我的HTML字符串各不相同,我沒有任何控制權,所以如果我嘗試使用xpath,我會傾向於獲取錯誤,因爲HTML不是100%正確寫入。
任何想法?
感謝,
還有上http://simplehtmldom.sourceforge.net/
稱爲PHP簡單的HTML DOM解析器一個偉大的階級正常工作與無效的HTML,但需要大量的內存用於解析HTML長,文件。
This works great! – 2011-05-12 13:49:24
[抓取A元素的href屬性]的可能重複(http://stackoverflow.com/questions/3820666/grabbing-the-href-attribute-of-an-a-element) – Gordon 2011-05-11 10:27:49
如果HTML是格式不正確,請使用['DOMDocument :: loadHTML()'](http://de.php.net/manual/en/domdocument.loadhtml.php)。這將使DOM使用HTML解析器模塊,它可以處理大多數錯誤的HTML罰款,並允許您使用XPath。 – Gordon 2011-05-11 10:29:04
*(相關)* [解析HTML的最佳方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html/3577662#3577662) – Gordon 2011-05-11 10:30:09