我想提出的是獲取我的計算器頁面和前一天的頁面DIFFS它夜間cron作業,所以我可以看到我的問題,答案更改摘要,排名等如何捲曲或wget一個網頁?
不幸的是,我不能沒有得到正確的一套餅乾等,使這項工作。有任何想法嗎?
此外,當測試完成後,我的狀態頁面可以在沒有登錄的情況下訪問嗎?
我想提出的是獲取我的計算器頁面和前一天的頁面DIFFS它夜間cron作業,所以我可以看到我的問題,答案更改摘要,排名等如何捲曲或wget一個網頁?
不幸的是,我不能沒有得到正確的一套餅乾等,使這項工作。有任何想法嗎?
此外,當測試完成後,我的狀態頁面可以在沒有登錄的情況下訪問嗎?
您的狀態頁面現在可以不登錄(點擊logout並嘗試它)。當beta-cookie被禁用時,您和狀態頁面之間沒有任何關係。
wget的:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
好主意:)
我想你已經使用了wget的
--load-cookies (filename)
可能有點幫助,但它可能是更容易使用類似機械化(Perl或Python)的模擬瀏覽器更充分地獲得一個好蜘蛛。
我無法弄清楚如何讓餅乾要麼工作,但我能得到我的狀態頁面在瀏覽器中,而我登出,所以我假設一旦stackoverflow公開,這將工作。
這是一個有趣的想法,但你不會也拿起底層HTML代碼的差異嗎?你有避免結束HTML的差異而不是實際內容的策略嗎?
這裏還有什麼工作......
curl -s --cookie soba=. http://stackoverflow.com/users
這裏還有什麼工作......
捲曲-s --cookie蕎麥麪=。 https://stackoverflow.com/users
而且wget的:
wget --no-cookies --header "Cookie: soba=(LookItUpYourself)" https://stackoverflow.com/users/30/myProfile.html
如果我有時間,我會做一個[美麗的湯(http://www.crummy.com/software/BeautifulSoup/)(或東西更好?)腳本來很好地刮掉數據,但現在我只是想出了我需要的文本行。 – 2008-08-05 21:06:36