2017-08-15 66 views
1

在Google Cloud Dataflow上使用Apache Beam Python SDK 2.0.0時,需要永久(大約8分鐘)才能安裝Pandas 0.20.3。安裝主要掛在消息Running setup.py bdist_wheel for pandas: still running...上。然而,在我的機器上,安裝相同版本的熊貓甚至不需要30秒(即使在清除pip緩存後)。安裝熊貓大約需要現在運行我的管道的三分之一的成本。任何想法,爲什麼這需要這麼多時間?在Google Cloud上安裝pandas 0.20.3數據流需要很長時間

回答

1

Dataflow SDK階段依賴於源代碼的形式,因爲客戶端架構不一定與用作Dataflow工作者的VM匹配。這將導致熊貓從源頭安裝並在虛擬機上編譯很長時間。

可以通過使用--extra_package標誌並指向whl文件來解決此問題。對於熊貓,您可以使用來自pandas的pypi頁面的相應whl文件(py27,x86_64)。

+0

我試着用'pandas-0.20.3-cp27-cp27m-manylinux1_x86_64.whl',但不幸的是它失敗了'10:43:47.000 安裝軟件包失敗:未能安裝額外的軟件包:無法安裝額外的軟件package pandas-0.20.3-cp27-cp27m-manylinux1_x86_64.whl:退出狀態1'。任何想法可能是錯誤的?畢竟架構是不同的? – user8169408

+0

沒關係!我不得不使用cp27mu版本。它現在有效。謝謝!!! – user8169408