如何捲曲或wget一個網頁？

我想提出的是獲取我的計算器頁面和前一天的頁面DIFFS它夜間cron作業，所以我可以看到我的問題，答案更改摘要，排名等如何捲曲或wget一個網頁？

不幸的是，我不能沒有得到正確的一套餅乾等，使這項工作。有任何想法嗎？

此外，當測試完成後，我的狀態頁面可以在沒有登錄的情況下訪問嗎？

您的狀態頁面現在可以不登錄（點擊logout並嘗試它）。當beta-cookie被禁用時，您和狀態頁面之間沒有任何關係。

wget的：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

2008-08-05 20:43:52 Grant

好主意:)

我想你已經使用了wget的

--load-cookies (filename)

可能有點幫助，但它可能是更容易使用類似機械化（Perl或Python）的模擬瀏覽器更充分地獲得一個好蜘蛛。

2008-08-05 20:43:31 sparkes

我無法弄清楚如何讓餅乾要麼工作，但我能得到我的狀態頁面在瀏覽器中，而我登出，所以我假設一旦stackoverflow公開，這將工作。

這是一個有趣的想法，但你不會也拿起底層HTML代碼的差異嗎？你有避免結束HTML的差異而不是實際內容的策略嗎？

2008-08-05 20:46:22

如果我有時間，我會做一個[美麗的湯（http://www.crummy.com/software/BeautifulSoup/）（或東西更好？）腳本來很好地刮掉數據，但現在我只是想出了我需要的文本行。 – 2008-08-05 21:06:36

這裏還有什麼工作......

curl -s --cookie soba=. http://stackoverflow.com/users

2008-08-05 21:22:42

這裏還有什麼工作......

捲曲-s --cookie蕎麥麪=。 https://stackoverflow.com/users

而且wget的：

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html

2008-08-05 22:04:12 Grant

回答