5
我正在使用Jsoup來解析網頁。但是有些如果我想解析的信息是在CDATA標籤內部的,它會阻止解析器從裏面提取數據。我將如何去從CDATA標籤中提取數據? 實例:Jsoup獲取具有CDATA標籤的javascript的內容?
<script type='text/javascript'><!--// <![CDATA[
OA_show('300x250');
// ]]> --></script>
<script type='text/javascript'>alert("Hello");</script>
如果我使用Jsoup解析這個頁面,並嘗試選擇頁面中所有THA匹配的元素與「腳本[類型=文本/ JavaScript的]」我得到返回的其他腳本的內容頁面沒有CDATA標籤但沒有Alert(「Hello」);值。 我該如何去獲得一個與Jsoup的CDATA標籤內的值?
謝謝!
我不認爲這個問題是CDATA,但圍繞它的評論。在將網頁文本發送給JSoup之前,你不能僅僅去掉註釋和CDATA廢話(帶'String.replace()')嗎?它不應該影響任何東西,寬容的HTML解析器應該知道如何處理'