2008-08-05 94 views
16

我想提出的是獲取我的計算器頁面和前一天的頁面DIFFS它夜間cron作業,所以我可以看到我的問題,答案更改摘要,排名等如何捲曲或wget一個網頁?

不幸的是,我不能沒有得到正確的一套餅乾等,使這項工作。有任何想法嗎?

此外,當測試完成後,我的狀態頁面可以在沒有登錄的情況下訪問嗎?

回答

9

您的狀態頁面現在可以不登錄(點擊logout並嘗試它)。當beta-cookie被禁用時,您和狀態頁面之間沒有任何關係。

wget的:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html 
3

好主意:)

我想你已經使用了wget的

--load-cookies (filename) 

可能有點幫助,但它可能是更容易使用類似機械化(Perl或Python)的模擬瀏覽器更充分地獲得一個好蜘蛛。

2

我無法弄清楚如何讓餅乾要麼工作,但我能得到我的狀態頁面在瀏覽器中,而我登出,所以我假設一旦stackoverflow公開,這將工作。

這是一個有趣的想法,但你不會也拿起底層HTML代碼的差異嗎?你有避免結束HTML的差異而不是實際內容的策略嗎?

+0

如果我有時間,我會做一個[美麗的湯(http://www.crummy.com/software/BeautifulSoup/)(或東西更好?)腳本來很好地刮掉數據,但現在我只是想出了我需要的文本行。 – 2008-08-05 21:06:36

2

這裏還有什麼工作......

curl -s --cookie soba=. http://stackoverflow.com/users 
6

Mark Harrison

這裏還有什麼工作......

捲曲-s --cookie蕎麥麪=。 https://stackoverflow.com/users

而且wget的:

wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html