2015-10-14 41 views
0

我試圖在Java的網絡爬蟲這需要一個網頁的URL並導航到存在於特定網頁的源代碼中的其他頁面。問題是,我在jsoup的幫助下獲取了HTML的源代碼,其中包含各種標籤,如框架和一些JavaScript文件名。現在導航到其他頁面,我需要訪問框架和JavaScript文件中給出的http鏈接。我應該如何獲得列表中的鏈接。獲取頁面的完整的HTML源代碼進行網絡爬蟲

+2

使用html解析器。祝你好運! –

+0

但是,我如何獲得其HTML文件名存在於html代碼中的javascript源代碼。 –

回答

1

你需要遞歸地做到這一點...發現一幀標籤/元素的DOM對象,時間獲取DOM它的「src」屬性的,繼續做下去,存儲所有您在隨後的抓取找到鏈接數組。
您可以使用新線程來獲取框架DOM。只是爲了讓整個過程更快一點。

+0

謝謝。有效 :) –