2012-01-05 69 views
0

我有一個任務,我需要autologin和刮一個particualr網站。自動記錄和網頁抓取

我見過人們主要使用Java來建議htmlUnit和HttpClient。 htmlUnit看起來像一個測試工具。我不知道該怎麼做。有沒有一個例子解釋自動登錄和網頁抓取htmlUnithttpClient

我是一名Java開發人員。任何與它密切合作的人都可以分享任何想法嗎?

+0

[第4章HTTP認證](http://hc.apache.org/httpcomponents-client-ga/tutorial/html/authentication.html) – 2012-01-05 20:43:53

回答

2

你的問題可以分解爲

  • 登錄到網站
  • 刮從網站的數據。

所以,第一部分 - :

  1. 安裝livehttp頭的Firefox插件,比閱讀所有由你的瀏覽器,而試圖 登錄發送和接收的HTTP 頭。

  2. 嘗試使用你的java代碼發送這些頭文件,基本上你有 來模擬HTTP POST請求使用你的java代碼。對於 google->make post request from java

在您登錄到網站,超過報廢使用您所選擇的API數據。我個人使用htmlcleanerHtmlCleaner

要清除數據,您可以使用帶有htmlcleaner的XPath expressions

看看Xpath+htmlcleanerhere also

您還可以使用JSoup而不是htmlcleaner。使用JSoup的優點是它可以同時處理login[POST Request] and Data scraping。看看這裏http://pastebin.com/E0WzpuhF

我知道這似乎很多工作,我已經爲您的問題提供了兩種替代解決方案,但將您的問題分成更小的塊,並嘗試解決它。