我試圖從無效HTML網站刮取數據。 Simple HTML DOM Parser解析它,但由於它處理無效的HTML如何丟失一些信息。帶有DOMXPath的內置DOM解析器不起作用,它返回一個空白結果集。我能夠通過PHP Tidy運行獲取的HTML後在本地工作(DOMDocument和DOMXPath),但PHP Tidy未安裝在服務器及其共享託管服務器上,所以我無法控制這一點。我試過HTMLPurifier,但這似乎只是爲了確保用戶輸入,因爲它完全刪除了doctype,head和body標籤。如何使用無效HTML刮掉網站
是否有任何種類的獨立替代PHP Tidy?我真的更喜歡使用DOMXPath瀏覽並獲取我需要的東西,它似乎需要一些幫助清理HTML,然後才能解析它。
編輯:我刮這個網站:http://courseschedules.njit.edu/index.aspx?semester=2010f。現在我只是試圖獲得所有的課程鏈接。
什麼網站你刮? – Stephen 2010-10-08 18:48:29
[解析HTML的最佳方法]的可能重複(http:// stackoverflow。com/questions/3577641/best-methods-to-parse-html) – Gordon 2010-10-08 21:29:34
這篇文章實際上有我需要的。 PHPQuery完成了這項工作。 – Telanor 2010-10-08 23:55:12