我們想要做的是爲我們的實驗室成員創建一個本地數據存儲庫,以便組織,搜索,訪問,編目,參考我們的數據等。我認爲CKAN可以完成所有這些工作;然而,我不確定它將如何處理這些我們實際擁有的數據(我可能是錯的,這就是我要問的原因)。CKAN能夠處理100k +文件和TB數據嗎?
我們的實驗室正在購買大量的供內部使用的數據。我們希望能夠在我們的小組內編目和組織這些數據(可能是CKAN?),以便人們可以將數據推送到目錄,並提取數據並使用它。一些使用情況是,對數據,Web界面,搜索,瀏覽,組織,添加,刪除,更新數據集等具有ACL。雖然CKAN看起來非常適合這種情況,但問題出現在數據中所以我們試圖處理的金額)。
我們想要從TB級圖像(200k +圖像),各種格式的地理空間數據,Twitter流(JSON數據的TB),數據庫轉儲文件,二進制數據,機器學習模型等中任意編目。 t認爲將10萬個64MB JSON文件作爲資源添加到CKAN數據集是合理的,還是這樣?我們意識到我們無法在此JSON/images/geo數據中搜索,這很好。但是,如果我們有可用的數據(例如,我們搜索「twitter 2015-02-03」),我們希望找到信息,如果您願意的話,這是一種元數據搜索類型。在CKAN中使用本地文件存儲,如果用戶請求200k圖像會發生什麼?當系統不得不回答這些要求時,系統是否會變得沒有反應?
我已經在datahub.io上看到了CKAN,絕大多數的東西都是小的CSV文件,小的2-3MB的zip文件,以及數據集中不超過20或30個單獨的文件。
那麼CKAN能夠做我們想做的嗎?如果對替代品沒有任何建議?
編輯更具體的問題,而不是討論:
我環顧四周,並用Google搜索關於該主題的信息,但我還沒有看到一個部署的系統與數據的任何顯著量。
- 我可以上傳的文件大小是否有限制(例如,壓縮的400GB數據庫文件)?
- 作爲資源上傳到CKAN中的數據集的文件數是否有限制? (例如,我創建一個數據集並上傳250,000個64MB JSON文件,系統可用?)
- UI似乎不支持在某個時間上傳多個文件的能力(例如,數據文件夾作爲資源) 。是否有一個工具/擴展/插件,已經支持這個功能?
- a。是否有任何限制阻止我使用CKAN API來實現這一目標?
關於SO的問題應該是一個特定問題,而不是開放式討論 –
@DRead我將問題改爲特定項目。 –