我想創建一些簡單易用的pip包,用於在Python中加載常見的機器學習數據集。 (是的,有些東西已經存在,但我希望它是更簡單。)使用setuptools時,如何在安裝時下載外部數據?
我想實現的是:
- 用戶運行
pip install dataset
- PIP下載數據集,說通過
wget http://mydata.com/data.tar.gz
。請注意,數據不在python包本身中,而是從其他地方下載。 - pip從該文件中提取數據並將其放入安裝該軟件包的目錄中(這並不理想,但數據集非常小,因此我們假設在這裏存儲數據並不是什麼大問題。)
- 稍後,當用戶導入我的模塊時,模塊會自動從特定位置加載數據。
這個問題是關於子彈2和3.有沒有辦法用setuptools做到這一點?
進口副作用是邪惡的。最好提供一個明確地做到這一點的函數。例如,如果用戶沒有互聯網,或者在某種邪惡的MitM代理的後面,給你一個「這個頁面被阻止」的HTML文件而不是你期望的數據集? – Kevin