2013-10-25 163 views
0

我做了一個網頁抓取工具來抓取IMDB上的信息。它通過將url中的數字更改爲不同的隨機數來遍歷每個頁面,然後在這個新頁面上重複網頁抓取過程。使用JSoup網頁抓取網頁

http://www.imdb.com/title/tt0800369/ < - 將此編號更改爲新電影。

我該如何在BFI網站上做到這一點?我無法看到從電影到電影的一種方式。

在此先感謝!

回答

1

以下隨機生成的鏈接不是通過WWW遍歷的最有效方式... 您確實應該遵循您在其他網頁上找到的網址。您可以使用似乎是最簡單的Java爬蟲開始的crawler4j。還有some alternatives

+0

謝謝你的回答!我希望我可以去一個頁面,將有一個下一部電影或類似的東西,我可以用來遍歷電影的鏈接,但沒有任何我可以遵循的Url。使用抓取工具可以只瀏覽一個網站的頁面? – Craig

+0

當然。有shouldVisit方法,您可以指定是否要解析頁面。 https://code.google.com/p/crawler4j/source/browse/src/test/java/edu/uci/ics/crawler4j/examples/basic/BasicCrawler.java – Damian