2012-03-30 28 views
1

請問您可以告訴我如何使用C# language找到網頁的年齡。例如,如果我想在我的C#程序中找到此en.wikipedia.org/wiki/ATI_Technologies網站的年齡(它是第一次創建/上傳到網絡的那一天),那我該怎麼做?請讓我知道這將是什麼活動?C#網頁的年齡?

+0

與您看到的服務器文件和響應不存在1:1的關係。特別是對於維基百科。 – Yuck 2012-03-30 14:43:55

+0

連續抓取整個網頁,首次出現時記錄每個網頁。然後你就可以回答這個問題。但請記住,谷歌和網絡存檔都不能做到這一點,這應該從一個角度提出您的問題... – Joey 2012-03-30 14:44:39

+0

Yuck,這就是爲什麼HTTP地址*資源*,而不是*文件*;) – Joey 2012-03-30 14:45:11

回答

0

http://archive.org有你需要的信息,你可以問他們一個webservice使用。

+0

這可能會讓你非常接近,但應該說這不是100%可靠的。即使您確信archive.org對他們發現的內容(健康的懷疑態度)是真實的,但他們完全有可能無法抓取您正在查找的特定頁面。 – 2012-03-30 14:47:45

+0

這是一個很好的觀點,但您可以與元數據結合使用。 – Har 2012-03-30 14:52:18

+0

這種組合絕對是一種方式。我認爲,archive.org可能是最好的選擇,如果你必須去單一來源,但只有當有問題的網站是從其「出生」記錄 – 2012-03-30 15:12:11

3

我不認爲有任何可靠的方法來做到這一點。您需要指望發佈商在頁面的元數據中使用該數據,而不是每個人都這樣做。

0

您可以在HTTP響應頭中檢查Last-Modified

+0

這不是一個指標它創建的時間*。 – Joey 2012-03-30 14:47:43

+0

我同意,認爲該名稱足夠描述,但可以提供一些信息。 – 2012-04-10 15:28:25

0

7月29日有沒有辦法得到一個數據高度自信。 WhoIs,archive.org(感謝HarHaHu,我會忘記這一點),並且只是詢問quesiton網站的所有者可能會在某種程度上起作用,但是不會保留單個文件或網址的原始發佈日期自動且安全地在任何地方,甚至在主機的機器上。維基百科和許多其他網站確實在其大多數頁面上保存了檔案和歷史信息,但是您必須相信它們並不是在任何地方隱藏數據。

每個頁面的歷史歸檔將是一個巨大的承諾,並且沒有像這個現有的,你正在尋找的數據只是沒有任何細節/可靠性。關於這甚至意味着什麼含糊不清:您是否跟蹤某個特定網址是否開始以200的響應代碼響應?你跟蹤單個文件嗎?如果網站搬遷,那些新網頁,還是舊網頁?正確定義是一個困難的問題,幾乎不可能完全解決。