我想用Ruby
和Nokogiri
編碼crawler
程序。 我的目標網址是apk.hiapk.com/search?pid=0&key=%E5%8A%A9%E6%89%8B&pi=3
我無法獲取網頁的完整HTML源代碼
它的搜索URL是http://apk.hiapk.com/searchpid=0&key=%E5%8A%A9%E6%89%8B&pi=3
。
當我嘗試此代碼:
url = URI.encode("http://apk.hiapk.com/search?pid=0&key=#{key}&pi=#{page}")
content = client.get_content(url)
html_doc = Nokogiri::HTML(content)
我會得到這個頁面的HTML
,但HTML
是不完整的源代碼,它有一些HTML
元素缺失。
當我使用Firefox並訪問此URL時,我可以獲得完整的HTML源代碼。我想知道發生了什麼,以及爲什麼。本網站使用了哪些技術?
我無法獲得完整的網頁html源代碼。 –
也許有創建新元素的JavaScript代碼。爬行器通常不執行腳本。 – Xufox
爲什麼不使用'Nokogiri :: HTTP(url)'它會給你一切。 –