我想抓取GitHub上的某種項目,說我想抓取由特定作者創建的源代碼和bla bla約束條件。是否有任何Nutch的插件來抓取這些信息或最好的方式來抓取整個存儲庫。抓取版本控制系統
我甚至想要使用Nutch抓取版本公開託管的版本控制系統。有沒有任何插件可用於相同的。
我想抓取GitHub上的某種項目,說我想抓取由特定作者創建的源代碼和bla bla約束條件。是否有任何Nutch的插件來抓取這些信息或最好的方式來抓取整個存儲庫。抓取版本控制系統
我甚至想要使用Nutch抓取版本公開託管的版本控制系統。有沒有任何插件可用於相同的。
Github帶有一個JSON API。使用存儲庫API獲取特定用戶的存儲庫列表,然後克隆它們。應該是幾行shell的問題。
請參閱API文檔here。
Nutch是一個搜索引擎,由Apache製作,基於Lucene後端。
看看GitHub的robots.txt文件: https://github.com/robots.txt
除了特定的引擎,(如谷歌),它說:
User-agent: *
Disallow:/
因此,你不能使用Nutch抓取GitHub上。
搜索引擎爬行github似乎是一個壞主意。將有許多類似的網頁,你會無緣無故下載。 GitHub的搜索有什麼問題?
請嘗試概括您的問題。你希望通過Nutch抓取github來實現什麼?你想要執行什麼類型的搜索?
我認爲機械爬行github是一個有效的用例。因此API。 – pmr 2012-01-11 18:50:06
您無法抓取遠程存儲庫,您必須擁有本地副本。我甚至不知道Nutch是什麼,但最接近你對核心git的要求是'git log'的參數,請參閱manpage。 – fge 2012-01-11 10:13:23
我認爲「user159972」想要的是自動查找特定作者創建的所有項目列表,然後該工具將在本地進行克隆。 – Arafangion 2012-01-11 14:24:44