2016-08-23 70 views
0

我想用RubyNokogiri編碼crawler程序。 我的目標網址是apk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=3我無法獲取網頁的完整HTML源代碼

它的搜索URL是http://apk.hiapk.com/searchpid=0&key=%E5%8A%A9%E6%89%8B&pi=3

當我嘗試此代碼:

url = URI.encode("http://apk.hiapk.com/search?pid=0&key=#{key}&pi=#{page}") 

content = client.get_content(url) 

html_doc = Nokogiri::HTML(content) 

我會得到這個頁面的HTML,但HTML是不完整的源代碼,它有一些HTML元素缺失。

當我使用Firefox並訪問此URL時,我可以獲得完整的HTML源代碼。我想知道發生了什麼,以及爲什麼。本網站使用了哪些技術?

+0

我無法獲得完整的網頁html源代碼。 –

+0

也許有創建新元素的JavaScript代碼。爬行器通常不執行腳本。 – Xufox

+0

爲什麼不使用'Nokogiri :: HTTP(url)'它會給你一切。 –

回答

0

當我使用

Nokogiri::HTML(open("http://apk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=10")) 

它是成功的,我也得到了完整的HTML源代碼。

所以現在我知道是什麼原因了。

+0

這個問題就是我所做的。我的代碼不正確,所以我無法獲得完整的HTML源代碼。 –