2012-02-10 149 views
-2

使用HTTPClient和Jsoup來獲取URL並瀏覽頁面。我有一個場景,其中一個鏈接有3或4頁由分頁控制。 onSubmit每個數字,操作被張貼和URL被改變和導航完成。我怎樣才能從主頁上獲得這個網址?如何獲取分頁URL

這是我在分頁UI

<div class="pagination"> 
<div class="label">Page: </div>   
<div class="button selected" onclick="$('.page-position', $(this).closest('form')).attr('value', $(this).html()); $(this).closest('form').submit();">1</div>   
<div class="button " onclick="$('.page-position', $(this).closest('form')).attr('value', $(this).html()); $(this).closest('form').submit();">2</div> 
<div class="button " onclick="$('.page-position', $(this).closest('form')).attr('value', $(this).html()); $(this).closest('form').submit();">3</div>    
<div class="button" onclick="$('.page-position', $(this).closest('form')).attr('value', 2);$(this).closest('form').submit();">Next</div> 
</div> 
+1

我們無法知道您的文檔是如何分頁的! Downvoted。 – Mikhail 2012-02-10 21:43:54

回答

2

Jsoup解析靜態HTML。這些URL由Javascript/JQuery創建。所以你不能用Jsoup來做。您可以嘗試HtmlUnit來創建頁面並呈現Javascript,然後選擇div很簡單。

1

這取決於你正在試圖獲得在頁面上的存在。現在大多數網站都有非常好的結構化網址,所以它可以歸結爲解釋網址的容易程度。您可以使用Firebug在Firefox獲得的CSS路徑/ XPath和使用jsoup http://jsoup.org/cookbook/extracting-data/dom-navigation

如果在另一方面,網站有非結構化的網址,然後簡單地就像你使用瀏覽器naviagate呢,那就是,回去並且。使用鏈接的第一頁作爲錨點,然後前後走。在Python上,你可以使用機械化來做到這一點。