2012-05-09 53 views
1

我想知道如何確定一個網站的年齡(而不是主機/域名註冊的年齡)以一種強大和普遍的方式。如何獲得一個網站的年齡(不是域名)

this site爲例:

大多數時候,年齡/日期(2011年12月21日,在這種情況下)的出現在網站上,但據我所知有正從該信息的任何通用的方法(可能在頁面上,在META標籤中,標題...)

如果你是谷歌的標題,谷歌將顯示年齡(第一結果;灰色;所以谷歌提取這些信息):

http://i.stack.imgur.com/BcXwo.png [我沒有權限將其作爲圖像嵌入]

除此之外,還有其他網站有同樣的消息(我想它來自新聞機構),谷歌也顯示了這些人的年齡,但不是最後一個,儘管它出現在文本中(第一行; 2011年12月21日星期三)。

Q1)如何以普遍的方式確定年齡?

Q2) Google如何做到這一點?這只是網址出現在索引中的時間嗎?爲什麼沒有最後的結果呢?

Q3)如果沒有別的辦法,然後真正從谷歌得到它,那怎麼可以自動地爲一對夫婦域做了什麼?經過多次自動請求後,Google會阻止/阻止您發送更多請求。我查看了Google Custom Search API,但數據沒有顯示在結果中。

謝謝!

+0

首先,*網站的年齡是什麼?我能想到的最接近的是來自HTTP響應的「Last-Modified:」標題,但請注意,例如,有像SO這樣的高度動態網站,其中的問題並非一開始就適合。 –

+0

我知道這不是一個艱難的標準,這很難;我猜。Last-Modified(見下面的答案)有效,但通常會顯示整個域名的日期。 – Martin

回答

0

如果服務器支持它,您可以使用HTTP-Request的Last-Modified Header部分。

嘗試:curl -I http://online.wsj.com/article/SB10001424052970204058404577110380555673036.html

只得到答覆的HTTP標頭,並看看輸出

HTTP/1.1 200 OK 
Date: Wed, 09 May 2012 12:40:10 GMT 
Server: Apache/2.2.15 (CentOS) 
... 
FastDynaPage-ServerInfo: secj2kentwap07 - Wed 05/09/12 - 08:40:10 EDT 
Last-Modified: Wed, 09 May 2012 12:40:10 GMT 
Content-Type: text/html; charset=UTF-8 
+0

感謝您的回答,但Last-Modified常常顯示整個域的日期或因$ foo而更改。對於華爾街日報來說,它正在改變;我比你現在得到一個更新的日期。儘管如此,谷歌似乎有正確/所需的日期(在我的例子中,這是新聞發佈的日期)。 – Martin

+0

我猜想google會列出他們第一次在上次訪問中看到的版本的日期。在您的最後一個示例中,所顯示的代碼段包含一個編輯日期。他們可能會在這種情況下壓制他們自己的約會想法,這是有道理的。 –

0

其實我還沒有找到一個合適的方式來獲得從日期URL。所以我採取了另一種方法:我嘗試從網站本身或通過Google找到包含該網址的Feed作爲項目。

然後有一個很好的機會,我會要麼得到一個pubdate的DC:其中包含出版日期日期。這是可用的。

感謝您的所有輸入。