0
我使用Jsoup解析html文件並從元素中提取所有可見的文本。問題是javascript變量中有一些html位顯然被忽略。什麼是最好的解決方案來獲得這些數據?如何用Java中的Jsoup解析javascript變量中的html?
例子:
<!DOCTYPE html>
<html>
<head>
<script>
var html = "<span>some text</span>";
</script>
</head>
<body>
<p>text</p>
</body>
</html>
在這個例子中Jsoup只挑選了從p
標籤這是它應該做的文本。我如何從var html
跨度中獲取文本?該解決方案必須應用於數千個不同的頁面,所以我不能依賴像JavaScript變量具有相同名稱的東西。
Atleast是否確定'html'內容位於雙引號內,且'
我不是很確定的答案,但我here以前看到類似的情況。
您可能可以使用Jsoup和手動解析來根據該答案獲取文本。
我只是修改的代碼爲您的具體情況:
希望這會有所幫助。
來源
2013-11-02 04:16:53 KK4SBB