2013-12-17 198 views
6

我是一個初學者抓取。我有要求從鏈接中獲取帖子和評論。我想讓這個過程自動化。我考慮使用webcrawler和jsoup,但被告知web爬行器主要用於深度更大的網站。抓取網頁的內容(通過AJAX調用加載)

樣的頁面:牛仔社區網站

對於這個頁面,當我查看該頁面的源代碼,我只能看到帖子,而不是評論。認爲這是因爲評論是通過對服務器的AJAX調用獲取的。

因此,當我使用jsoup時,它不會獲取評論。

那麼我該如何自動化獲取帖子和評論的過程呢?

+0

所有的評論是從jive數據庫中加載的,沒有隱藏的鏈接來獲取評論的原始文本。應該有一個鏈接,我已經搜查(如果你knw Java腳本也許你可以knw他們從這裏調用它:https://www.heylululemon.com/6.0.2.0/resources/scripts/gen/b0e45f40028721e48611c14803fef20d.js)被從網站調用來獲得評論,但我沒有看到。你有沒有嘗試過網頁瀏覽功能。 – ImGeorge

+0

[Jsoup Java HTML解析器:執行javascript事件]的可能重複(http://stackoverflow.com/questions/7344258/jsoup-java-html-parser-executing-javascript-events) – Pshemo

回答

9

Jsoup is a html parser only。不幸的是,無法解析任何javascript/ajax內容,因爲jsoup無法執行這些內容。

解決方案:使用可處理腳本的庫。

下面是一些例子,我知道:

如果這樣的庫不支持解析或選擇,你可以至少使用它們來讓Html脫離腳本(w然後可以由jsoup解析)。

2

Jsoup不處理Javascript和Ajax,所以你需要使用Htmlunit或硒。 使用Htmlunit或任何您可以使用jsoup的任務的其餘部分加載頁面後。