2012-11-02 107 views
5

我正在使用Jsoup來解析網頁。但是有些如果我想解析的信息是在CDATA標籤內部的,它會阻止解析器從裏面提取數據。我將如何去從CDATA標籤中提取數據? 實例:Jsoup獲取具有CDATA標籤的javascript的內容?

<script type='text/javascript'><!--// <![CDATA[ 
    OA_show('300x250'); 
// ]]> --></script> 
     <script type='text/javascript'>alert("Hello");</script> 

如果我使用Jsoup解析這個頁面,並嘗試選擇頁面中所有THA匹配的元素與「腳本[類型=文本/ JavaScript的]」我得到返回的其他腳本的內容頁面沒有CDATA標籤但沒有Alert(「Hello」);值。 我該如何去獲得一個與Jsoup的CDATA標籤內的值?

謝謝!

+3

我不認爲這個問題是CDATA,但圍繞它的評論。在將網頁文本發送給JSoup之前,你不能僅僅去掉註釋和CDATA廢話(帶'String.replace()')嗎?它不應該影響任何東西,寬容的HTML解析器應該知道如何處理'