2012-01-11 98 views
0

我想抓取GitHub上的某種項目,說我想抓取由特定作者創建的源代碼和bla bla約束條件。是否有任何Nutch的插件來抓取這些信息或最好的方式來抓取整個存儲庫。抓取版本控制系統

我甚至想要使用Nutch抓取版本公開託管的版本控制系統。有沒有任何插件可用於相同的。

+1

您無法抓取遠程存儲庫,您必須擁有本地副本。我甚至不知道Nutch是什麼,但最接近你對核心git的要求是'git log'的參數,請參閱manpage。 – fge 2012-01-11 10:13:23

+0

我認爲「user159972」想要的是自動查找特定作者創建的所有項目列表,然後該工具將在本地進行克隆。 – Arafangion 2012-01-11 14:24:44

回答

2

Github帶有一個JSON API。使用存儲庫API獲取特定用戶的存儲庫列表,然後克隆它們。應該是幾行shell的問題。

請參閱API文檔here

1

Nutch是一個搜索引擎,由Apache製作,基於Lucene後端。

看看GitHub的robots.txt文件: https://github.com/robots.txt

除了特定的引擎,(如谷歌),它說:

User-agent: * 
Disallow:/

因此,你不能使用Nutch抓取GitHub上。

搜索引擎爬行github似乎是一個壞主意。將有許多類似的網頁,你會無緣無故下載。 GitHub的搜索有什麼問題?

請嘗試概括您的問題。你希望通過Nutch抓取github來實現什麼?你想要執行什麼類型的搜索?

+0

我認爲機械爬行github是一個有效的用例。因此API。 – pmr 2012-01-11 18:50:06

相關問題