2016-09-13 215 views
1

我從來沒有做過網絡抓取之前,實際上只是3小時前,我谷歌詞刮網看到它是什麼意思......所以這是我的能力水平主題,但我有一個任務,爲本網站的不同足球比賽「betstars.uk」刮取一些數據,從我看到它是一個JavaScript網站(是嗎?),這使得我的艱難任務更加艱鉅,所以可以Jaunt工具爲JAVA做這個工作,或者我需要別的東西?我問,因爲要避免花費超過一個小時學習如何使用它只是爲了找出它不能做的工作將Jaunt的網站刮板能夠刮這個JavaScript網站

回答

0

由於某種原因,我無法加載網站,所以我不能告訴你,如果它使用JavaScript加載或不加載內容。 用Jaunt抓取基於JavaScript的網站是不可能的,因爲它是一個基本的網頁抓取庫,它根本不加載JavaScript。儘管如此,如果該網站確實使用JavaScript,則可以使用htmlUnit加載JavaScript內容並抓取所需的信息。 這裏是How to Scrape Javascript in Java

+0

我成立了這個在的HtmlUnit Eclipse的一個簡單的教程,它的工作,但我還是不知道如何使用它,本教程並沒有多大幫助 – likyy2

+0

你能告訴我你不正是」不知道該怎麼辦? –

+0

我嘗試使用該教程中給出的示例代碼來實現我的目的,但是當我粘貼這個'List teams =(List)page.getByXPath(「// td [@ class ='team']」);'它給出我錯誤的「頁面」無法解決,而我不知道的另一件事是我應該放在「// td [@ class ='team']」的地方,我知道如何打開檢查員在Firefox中,並查看網站中不同元素的HTML代碼,但我不知道該粘貼到我的程序中 – likyy2