2012-07-02 37 views
0

我試圖在頁面上的JavaScript修改頁面後訪問頁面的HTML。這是我一直在嘗試基於我在網上找到的東西。C# - 通過控制檯應用程序訪問Javascript修改過的HTML

using System; 
using System.Windows.Forms; 
using System.IO; 

namespace WebBrowserDemo 
{ 
    class Program 
    { 
    public const string TestUrl = @"http://www.theverge.com/2012/7/2/3126604/android-jelly-bean-updates-htc-samsung-google-pdk"; 

    [STAThread] 
    static void Main(string[] args) 
    { 
     WebBrowser wb = new WebBrowser(); 
     wb.DocumentCompleted += new WebBrowserDocumentCompletedEventHandler(wb_DocumentCompleted); 
     wb.Navigate(TestUrl); 

     while (wb.ReadyState != WebBrowserReadyState.Complete) 
     { 
      Application.DoEvents(); 
     } 

     Console.WriteLine("\nPress any key to continue..."); 
     Console.ReadKey(true); 
    } 

    static void wb_DocumentCompleted(object sender, WebBrowserDocumentCompletedEventArgs e) 
    { 
     WebBrowser wb = (WebBrowser)sender; 

     HtmlElement document = wb.Document.GetElementsByTagName("html")[0]; 

     using (StreamWriter sw = new StreamWriter("OuterHTML.txt")) 
     { 
      sw.WriteLine(document.OuterHtml); 
     } 

     var abc = wb.Document.InvokeScript("eval", new object[] { "window.scrollTo(0, document.body.scrollHeight);" }); 

     Console.WriteLine(); 
     document = wb.Document.GetElementsByTagName("html")[0]; 

     using (StreamWriter sw = new StreamWriter("OuterHTML2.txt")) 
     { 
      sw.WriteLine(document.OuterHtml); 
     } 

    } 
} 
} 

最終目標是滾動到頁面底部,激活任何JS以加載文章上的評論。雖然目前我從腳本運行前後得到的html是相同的。

有什麼建議嗎?

感謝

+0

即使這是可能的,這似乎是非常不可靠的。你有權訪問網站代碼嗎?你可以添加一個Web服務並改爲調用它? – jrummell

回答

1

你應該a WebBrowser control做到這一點。

這基本上是IE的組件化版本。將頁面加載到控件中。您可能甚至不需要顯示該頁面。您可以註冊一個事件處理程序,該頁面在完全加載時將被調用。沒有確定腳本何時「完成」的明確方法 - 腳本是開放式的,並且可以運行,只要他們喜歡。所以你必須建立一個啓發式的「等待期」,然後在等待期過後檢查HTML。

順便說一下,這正是IECapt所做的。

相關問題