2017-10-11 97 views
0

python依賴關係可以加載到谷歌雲數據流管道中嗎?我想使用gensim's phrase modeler,它逐行讀取數據以自動檢測常用短語/雙字母(兩個頻繁出現在彼此旁邊的單詞)。因此,管道的第一次運行將傳遞每個句子到這個短語建模器。然後,通過管道的第二遍將採用相同的短語建模器,並將這個短語建模器應用於每個句子,以識別應該一起建模的短語(如果「機器」和「學習」經常在語料庫中彼此相鄰出現,他們將被轉換爲一個單詞'machine_learning',而不是在數據流中完成這個可以在工作機器上通過強制pip install gensim來生成/需求文件嗎?數據流水線中的外部Python依賴關係

回答

1

你可以查看這個頁面來管理依賴您的管道:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies 

示例:對於PyPI上的包,可以通過添加以下命令行選項來使用需求文件:

--requirements_file requirements.txt