這是我的理解是,當我做:有沒有簡單的方法讓Mechanize獲取網頁的所有組件?
agent = Mechanize.New
page = agent.get("http://www.stackoverflow.com/")
機械化將使該text/html
的HTTP
GET
請求。但是,當我在完整的Web瀏覽器(如Chrome/Firefox)中導航到諸如Stackoverflow.com之類的網頁時,瀏覽器會讀取HTML頁面,並隨後發出GET
請求關聯的CSS,圖像,JavaScript等。
我可以想象解析由Mechanize返回的初始HTML,並識別任何CSS,圖像等,並進行後續請求,但有沒有一種簡單的方法讓Mechanize自動抓取所有或指定的組,也許只是關聯的圖像網頁的組件?
爲了給出一個有用的答案,最好知道你的最終目標是什麼。你究竟在努力完成什麼? – 2013-05-02 19:26:48
一個目標是從Web服務器的角度來看,機械化_look_和_behave_更像是一個完整的Web瀏覽器。 – Stephen 2013-05-02 22:41:25
然後,你應該看看像phantomjs一樣的無頭瀏覽器! – 2013-05-02 23:28:01