我有一個任務,我需要autologin和刮一個particualr網站。自動記錄和網頁抓取
我見過人們主要使用Java來建議htmlUnit和HttpClient。 htmlUnit看起來像一個測試工具。我不知道該怎麼做。有沒有一個例子解釋自動登錄和網頁抓取htmlUnit
或httpClient
?
我是一名Java開發人員。任何與它密切合作的人都可以分享任何想法嗎?
我有一個任務,我需要autologin和刮一個particualr網站。自動記錄和網頁抓取
我見過人們主要使用Java來建議htmlUnit和HttpClient。 htmlUnit看起來像一個測試工具。我不知道該怎麼做。有沒有一個例子解釋自動登錄和網頁抓取htmlUnit
或httpClient
?
我是一名Java開發人員。任何與它密切合作的人都可以分享任何想法嗎?
你的問題可以分解爲
所以,第一部分 - :
安裝livehttp頭的Firefox插件,比閱讀所有由你的瀏覽器,而試圖 登錄發送和接收的HTTP 頭。
嘗試使用你的java代碼發送這些頭文件,基本上你有 來模擬HTTP POST
請求使用你的java代碼。對於 google->make post request from java
在您登錄到網站,超過報廢使用您所選擇的API數據。我個人使用htmlcleaner
HtmlCleaner。
要清除數據,您可以使用帶有htmlcleaner的XPath expressions
。
您還可以使用JSoup
而不是htmlcleaner
。使用JSoup的優點是它可以同時處理login[POST Request] and Data scraping
。看看這裏http://pastebin.com/E0WzpuhF
我知道這似乎很多工作,我已經爲您的問題提供了兩種替代解決方案,但將您的問題分成更小的塊,並嘗試解決它。
[第4章HTTP認證](http://hc.apache.org/httpcomponents-client-ga/tutorial/html/authentication.html) – 2012-01-05 20:43:53