我想從一個使用JavaScript加載他們的大部分內容的網站抓取數據。現在我正在使用jSoup來解析html頁面,但是由於大部分內容是使用javascript加載的,因此我無法解析我想要的數據。刮擦數據。保存存檔?
我應該如何去獲取這個javascript內容?我應該先保存頁面,然後使用jSoup加載並解析它?如果是這樣,我保存之前應該使用什麼來加載JavaScript內容?有沒有一個你會推薦可以輸出html的API?
當前正在使用java。
我想從一個使用JavaScript加載他們的大部分內容的網站抓取數據。現在我正在使用jSoup來解析html頁面,但是由於大部分內容是使用javascript加載的,因此我無法解析我想要的數據。刮擦數據。保存存檔?
我應該如何去獲取這個javascript內容?我應該先保存頁面,然後使用jSoup加載並解析它?如果是這樣,我保存之前應該使用什麼來加載JavaScript內容?有沒有一個你會推薦可以輸出html的API?
當前正在使用java。
如果使用javascript生成數據,則數據位於下載的頁面中。 更好的是直接解析它們,就像使用純HTML或文本解析一樣。 如果您無法使用jSoup API隔離令牌,只需使用直接字符串選項將其解析爲純文本。
我試過使用htmlUnit但是我發現它很慢。
我結束了在Java中使用curl命令行函數,它爲我的目的工作。
String command = "curl "+url;
Process p = Runtime.getRuntime().exec(command);
BufferedReader stdInput = new BufferedReader(new InputStreamReader(p.getInputStream()));
while ((s = stdInput.readLine()) != null) {
html = html+s+"\n";
}
return html;