2015-06-08 98 views
0

我目前正在開始從Web平臺開發(UI?)備份。這不是我們的平臺,我無法訪問源代碼。Web數據抽取和表單填充

我只是輸入元素的Form-Data的HTML呈現視圖。

所以任務是瀏覽到HTML,存儲數據(XML/JSON),然後登錄到該網站再次填寫表格重新提交數據...

目前我用C++ QtWebEngine進行原型設計。

做這樣的工作最好的方法是什麼?什麼是「瀏覽」網絡和分析HTML的好框架?

首選C++/java/javascript(或firefox-addon?)解決方案。

感謝您的幫助!

回答

0

一樣DSL語言解釋器使用 「文檔對象模型(DOM)」 我的建議是:C#Web窗體應用程序和WebBrowser控件:

  • webbrowser.navigate([URL])
  • WebBrowser.DocumentCompleted事件
  • WebBrowser.Document(閱讀文檔和幫助有關 「System.Windows.Forms.HtmlDocument」)
  • 也許需要
注入一些Java腳本

/* 請不要使用這些信息對黑客和攻擊 */

+0

感謝您的建議,但我在Linux下工作,並不真正想挖掘到Mono。 (我只是想用它來進行備份/恢復,而不是使用的平臺提供的) – relascope

0

你絕對可以做這樣的事情使用Firefox的附加組件SDK。尤其是您應該查看PageWorker模塊,該模塊允許您在不顯示頁面的情況下加載和運行JS代碼,而不顯示頁面 - 所有事情都發生在後臺。