2016-01-17 52 views
0

我讓用戶輸入他們想要抓取的最近更新的URL列表。我對Java很熟悉,所以我試圖在Java中創建一個Web爬蟲程序,但我無法弄清楚如何從JavaScript到Java獲取這個數組。什麼是最兼容的語言,以便可以抓取數組中的每個URL?網頁爬蟲與JavaScript數組的網址?

回答

0

基於我的理解,從JavaScript發送數組的唯一格式是JSON。然後你可以在java端解析JSON。

參考此鏈接How to parse JSON in Java

在Java網絡爬蟲,你可以參考這個link

不幸的是Java不拿出所有的工具,使一個HTTP請求 和解析一個超級簡單的方法的頁面。幸運的是有一個 真的很輕巧,超級簡單易用的包叫jsoup那 使這非常容易。

約有700行代碼用於構成HTTP請求和 響應,以及幾千行代碼來解析響應。但是 因爲這個包都是整齊地捆綁在一起的,我們只需要 就自己寫幾行代碼。

所以你去了。希望能幫助到你!

+0

我是一個n00b,所以請幫我。所以我把數組改成了一個JSON對象,現在我怎麼把它變成java並用它作爲參數呢?該鏈接不完全回答我的問題。但網絡爬蟲部分有所幫助。 – cmagic13

+1

JSON是一個js對象,它可以包含包括數組在內的所有東西。所以你不需要將數組轉換爲JSON。但是,您需要使用JSON.stringify以便java讀取它。您可以通過AJAX或普通HTTP請求發送對象,就像在正常的表單提交中一樣。使用此鏈接可以幫助您開始使用的Java Servlet http://hmkcode.com/java-servlet-send-receive-json-using-jquery-ajax/。希望能幫助到你! –