獲取網頁源代碼

我正在嘗試獲取網頁源代碼。我用過：獲取網頁源代碼

$ curl --user name:password www.example.com

但這給了我登錄頁面的頁面源。我想在登錄後獲取頁面源。

我也嘗試過wget，但沒有成功。

我不能使用引入nokogiri和其他寶石寶石等

有什麼辦法，我可以使用Firefox的命令行來獲得頁面的源代碼或是否有任何其他方式來獲得頁面的源代碼？

感謝

2012-06-14 Wasi

這可能invovles處理會話。老實說，我建議使用一個web機械化軟件包，但如果你不能這樣做，很難在沒有這麼少的信息的情況下幫助你。 –

有什麼辦法，我可以使用Firefox的命令行來獲得頁面的源代碼...

您可以編寫腳本的Firefox（以及其他瀏覽器）通過Selenium WebDriver。對於Ruby綁定，請參見RubyBindings。

編輯：你說你不能使用「其他紅寶石的寶石，」所以我猜硒網絡驅動程序不是一個選項。還有Selenium IDE，這是一個可以使用的Firefox擴展，基本上可以記錄自己登錄的宏。然後可以從命令行調用測試。這可能會或可能不會幫助，具體取決於您要做的事情。

或者，您可以用cURL登錄sending a POST request並輸入所需的值。如果您需要獲取除請求後返回的第一頁以外的任何內容的源，則需要使用--cookie-jar選項爲後續請求保存會話。

2012-06-14 00:37:46

回答