2013-06-05 59 views
0

我想在網站中自動瀏覽以收集一些數據。用於收集數據的Chrome/Firefox網絡瀏覽器自動化

有一個頁面的表單。該表格由一個選擇和一個提交按鈕組成。選擇一個選項並點擊提交按鈕會導致另一個頁面出現一些包含相關數據的表格。

我需要爲每個選項收集並保存文件中的這些數據。可能我需要回到第一頁來重複每個選項的任務。細節是,我不知道以前的確切數量的選項。

我的想法是完成這項任務,最好是使用Firefox或Chrome。我認爲唯一的方法就是通過編程。

有人可以指示我以一種簡單快捷的方式完成這項任務。我對Java,Javascript和Python有一些瞭解。

回答

1

我找到了解決我的問題的方法。這就是所謂的HtmlUnit:

http://htmlunit.sourceforge.net/gettingStarted.html

是的HtmlUnit一個 「無圖形界面的瀏覽器的Java程序。」

它允許使用Java的網頁瀏覽和數據收集,它非常簡單易用。

不完全是我問的,但它更好。至少對我來說。

2

你可能想谷歌「網絡瀏覽器自動化」工具,如硒。雖然不完全適合這個目的,但我認爲它可以用來實現您的要求。

+0

硒對這項任務有什麼限制? – Natanael

1

由於任務比較很好的約束,我會避免硒(這是一個有點脆),而是試試這個方法:

  • 獲得的從第一頁選項的完整列表,記錄在一文本文件
  • 使用網絡監視工具(如Fiddler)捕獲提交第一頁時發送的流量。查看提交給服務器的確切內容 - 以及如何(POST與GET,參數編碼等)。
  • 使用像curl這樣的工具以您在步驟2中捕獲的確切格式重播請求步驟。然後編寫批處理腳本(使用bash或python)以遍歷步驟1中文本文件中的所有值對下拉列表中的所有值進行卷曲處理。將捲曲輸出保存到文件。