0
我需要解析多個(讀取大約1600個)HTML頁面,並從每個文件中拉出以下標記的內容。格式錯誤的XML/HTML解析
textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">TEXT I WANT IS HERE
(這實際上意味着是一個HTML textarea標籤) 我原以爲我可以使用的DOMParser但這些文件包含了太多的錯誤,所以我碰到JTidy,從另外一個問題在這裏計算器,我試圖使用它...
但是,似乎無法將HTML從任何頁面轉換爲XHTML,因此我可以使用DOM解析器。
我當時以爲我可以使用正則表達式,但我想不出相當發現拉文本所需要的特定表達,我也碰到多個問題/解答該說不能使用正則表達式來解析HTML ...
基本上我的問題是有沒有其他的方法來獲取我需要從一個格式錯誤的HTML文本?
乾杯我會看看tagsoup ... –
Im去接受這個答案,因爲我認爲TagSoup是他要走的路,儘管我無法讓它工作。 我設法通過恢復使用正則表達式解決我的問題,我發現了一種適用於我的模式... –