我正在尋找一個從Github隨機抽取倉庫的解決方案。最終的結果是對樣本進行一些數據分析。隨機抽樣Github倉庫
我想要做的是資源庫的id樣品:樣品0和270萬之間的int並找到相關的回購。在獲得用戶名/回購名稱後,我將使用API獲取詳細信息。
的問題是我不知道如何通過回購ID進行搜索。有什麼建議麼?我開放給webscrapping或Python解決方案。
我正在尋找一個從Github隨機抽取倉庫的解決方案。最終的結果是對樣本進行一些數據分析。隨機抽樣Github倉庫
我想要做的是資源庫的id樣品:樣品0和270萬之間的int並找到相關的回購。在獲得用戶名/回購名稱後,我將使用API獲取詳細信息。
的問題是我不知道如何通過回購ID進行搜索。有什麼建議麼?我開放給webscrapping或Python解決方案。
您可以使用Python來訪問Github的V3 API(如 「Most suitable python library for Github API v3」)。
而且你可以access GitHub repos,從某一個ID(GET /repositories
,以作爲參數,最後一個存儲庫的整數ID,您已經看到:這樣,可以提供一種迂迴的方式與他們的ID來訪問回購
我不明白你的解決方案,你介意擴展一些嗎?特別是,你看過的最後一個倉庫「是什麼意思? – 2013-02-24 19:47:20
@ Cam.Davidson.Pilon它意味着它將列出所有開始某個ID的回購。在你的情況下,你可以只選擇第一個倉庫作爲訪問回購的方法編號 – VonC 2013-02-24 20:22:59
例如,https://api.gith ub.com/repositories?ID=50000應該返回ID> = 50000.但(至少對我而言),這個網址並沒有這樣做。 – 2013-02-24 20:25:01
不確定它是否有幫助,但是你可以通過int id通過其餘的api訪問用戶,然後你可以通過隨機的用戶訪問任何倉庫 – three 2013-02-24 18:47:41