我們需要加載HTML頁面並在頁面執行頁面加載腳本並且頁面已完全加載後捕獲完整的HTML DOM。這需要基於服務器的方法,因爲潛在的數量和需要將這種負載分散到多臺機器上。頁面完全加載後捕獲HTML DOM - 使用服務
我們希望在不使用任何可視控件(如Web瀏覽器控件)的情況下在.NET中執行此操作,因爲這會將我們綁定到STA環境和消息泵。
我們可以下載HTML頁面沒有問題,但是我們不能做的是等到腳本等完成執行並捕獲該階段的內容。
也許是可能
- 使用新的邊庫的一部分來捕捉DOM沒有 它呈現在畫布
- 可能有一些可用的自定義組件,使我們通過這樣做模擬宿主環境(aka瀏覽器),並允許我們在加載DOM後訪問DOM。
任何關於解決這個問題的信息都會被讚賞,即使我們需要移出.NET世界。
是的,我想它基本上是一個網絡爬蟲,但一個非常集中,但仍需要管理數以千計的網頁10。我查看了那裏的代碼,Abot基本上正在做我們現在正在做的事情,爲頁面獲取HTTPWebResponse。這將下載頁面的HTML內容,但沒有執行java腳本等,該頁面可能包含,因此它不適合我們的需要。 – Bigtoe
仔細閱讀,現在我看到[Javascript Rendering](https://abotx.org/Learn/JavascriptRendering)是AbotX提供的付費附加組件。 – bds