我無法獲取網頁的完整HTML源代碼

我想用Ruby和Nokogiri編碼crawler程序。我的目標網址是apk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=3我無法獲取網頁的完整HTML源代碼

它的搜索URL是http://apk.hiapk.com/searchpid=0&key=%E5%8A%A9%E6%89%8B&pi=3。

當我嘗試此代碼：

url = URI.encode("http://apk.hiapk.com/search?pid=0&key=#{key}&pi=#{page}") 

content = client.get_content(url) 

html_doc = Nokogiri::HTML(content)

我會得到這個頁面的HTML，但HTML是不完整的源代碼，它有一些HTML元素缺失。

當我使用Firefox並訪問此URL時，我可以獲得完整的HTML源代碼。我想知道發生了什麼，以及爲什麼。本網站使用了哪些技術？

2016-08-23 dear hao

我無法獲得完整的網頁html源代碼。 –

也許有創建新元素的JavaScript代碼。爬行器通常不執行腳本。 – Xufox

爲什麼不使用'Nokogiri :: HTTP（url）'它會給你一切。 –

當我使用

Nokogiri::HTML(open("http://apk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=10"))

它是成功的，我也得到了完整的HTML源代碼。

所以現在我知道是什麼原因了。

2016-08-23 08:28:45

這個問題就是我所做的。我的代碼不正確，所以我無法獲得完整的HTML源代碼。 –

回答