2012-05-24 56 views
2

GitHub Archive項目狀態從GitHub存檔中檢索數據有多遠?

GitHub的歸檔是一個項目,記錄公共GitHub的時間表,存檔,並使其方便作進一步的分析。

該存檔也可通過Google Big Query查詢。然而,看起來我要麼丟失了一些東西,要麼只有一部分數據可用。

事實上,運行下面的查詢只返回1636 WatchEvents(開始停止),而Rails repository賬戶超過14300觀察家。

SELECT actor_attributes_login, created_at, payload_action 
FROM [githubarchive:github.timeline] 
where repository_name = "rails" 
and type="WatchEvent" 
order by created_at asc; 

它看起來像最舊的檢索數據是或多或少的2.5個月大。

數據會被截斷嗎(這對檔案可能看起來很奇怪)?有沒有限制/配額我不知道與使用BigQuery有關?

github-archive

回答

7

這是正確的。該項目/爬蟲今年3月11日開始上線,因此當前的存檔將於當天開始。在githubarchive.org頁面上有關於此的說明,但我想我應該讓它更明顯,更明確。

GitHub團隊有一個關於讓更多歷史記錄可用的線程,但我還沒有ETA。 手指交叉 :-)

+1

Thx爲這個答案和*真棒* GitHub檔案倡議! – nulltoken

+0

你說得對。有一個筆記我忽略了哪些狀態*「時間表數據從2012年3月11日開始可用。」*。我也認爲這個陳述*可能值得更多曝光;) – nulltoken