2011-08-26 111 views
0

我需要解析多個(讀取大約1600個)HTML頁面,並從每個文件中拉出以下標記的內容。格式錯誤的XML/HTML解析

 
    textarea name="line" cols="66" rows="5" class="textbox" id="line" style="font-size:12px;" onkeydown="textCounter()" onkeyup="textCounter(); storeCaret(this);" onselect="storeCaret(this);" onclick="storeCaret(this);">TEXT I WANT IS HERE 

(這實際上意味着是一個HTML textarea標籤) 我原以爲我可以使用的DOMParser但這些文件包含了太多的錯誤,所以我碰到JTidy,從另外一個問題在這裏計算器,我試圖使用它...

但是,似乎無法將HTML從任何頁面轉換爲XHTML,因此我可以使用DOM解析器。

我當時以爲我可以使用正則表達式,但我想不出相當發現拉文本所需要的特定表達,我也碰到多個問題/解答該說不能使用正則表達式來解析HTML ...

基本上我的問題是有沒有其他的方法來獲取我需要從一個格式錯誤的HTML文本?

回答

1

您應該能夠直接解析您的文檔,而不必將它們轉換爲XHTML。我曾多次做過,不久之前,但它對我來說很好,並且HTML格式很醜。

編輯:我上一次需要解析HTML文件的另一個選項是TagSoup。由於其GPL許可證,我無法在商業產品中使用它,但如果您只是需要此功能作爲內部工具,它可能適用於您

+0

乾杯我會看看tagsoup ... –

+0

Im去接受這個答案,因爲我認爲TagSoup是他要走的路,儘管我無法讓它工作。 我設法通過恢復使用正則表達式解決我的問題,我發現了一種適用於我的模式... –