我目前正在刮這個網站。颳去網址不變的網站
http://www.davidsassoonlibrary.com/index.php?action=book_details
但無論哪本書中,我搜索,網址保持不變。 我對網絡抓取完全陌生。 我已經使用Jsoup颳了2頁,並試圖爲這個網站做同樣的事情。
任何人都有任何想法。請儘可能詳細地解釋。 三江源
我目前正在刮這個網站。颳去網址不變的網站
http://www.davidsassoonlibrary.com/index.php?action=book_details
但無論哪本書中,我搜索,網址保持不變。 我對網絡抓取完全陌生。 我已經使用Jsoup颳了2頁,並試圖爲這個網站做同樣的事情。
任何人都有任何想法。請儘可能詳細地解釋。 三江源
您應該使用POST請求刮一些參數的網頁搜索和標題,試試下面的代碼:
Document doc = Jsoup.connect("http://www.davidsassoonlibrary.com/index.php?action=book_details")
.data("search", "search")
.data("title", "Test Cricket Lists")
//fields which are being passed in post request.
.userAgent("Mozilla")
.post();
System.out.println(doc); // will print html source
這是在控制檯上的結果:
你可以使用螢火蟲去調用哪個URL被調用,方法GET或POS以及參數。
我得到的DNS查找失敗。也許他們不想讓你刮掉它。 –