2016-07-21 73 views
0

我們需要加載HTML頁面並在頁面執行頁面加載腳本並且頁面已完全加載後捕獲完整的HTML DOM。這需要基於服務器的方法,因爲潛在的數量和需要將這種負載分散到多臺機器上。頁面完全加載後捕獲HTML DOM - 使用服務

我們希望在不使用任何可視控件(如Web瀏覽器控件)的情況下在.NET中執行此操作,因爲這會將我們綁定到STA環境和消息泵。

我們可以下載HTML頁面沒有問題,但是我們不能做的是等到腳本等完成執行並捕獲該階段的內容。

也許是可能

  • 使用新的邊庫的一部分來捕捉DOM沒有 它呈現在畫布
  • 可能有一些可用的自定義組件,使我們通過這樣做模擬宿主環境(aka瀏覽器),並允許我們在加載DOM後訪問DOM。

任何關於解決這個問題的信息都會被讚賞,即使我們需要移出.NET世界。

回答

0

最終偶然發現了一個針對PhantomJS的C#包裝,它看起來應該爲我做的伎倆。

1

這聽起來像包含在網絡爬蟲中的功能。有可能使用Abot

+0

是的,我想它基本上是一個網絡爬蟲,但一個非常集中,但仍需要管理數以千計的網頁10。我查看了那裏的代碼,Abot基本上正在做我們現在正在做的事情,爲頁面獲取HTTPWebResponse。這將下載頁面的HTML內容,但沒有執行java腳本等,該頁面可能包含,因此它不適合我們的需要。 – Bigtoe

+0

仔細閱讀,現在我看到[Javascript Rendering](https://abotx.org/Learn/JavascriptRendering)是AbotX提供的付費附加組件。 – bds

相關問題