Q

PySpark：如何在工作人員上安裝Linux命令行工具？

2015-07-21 73 views 0 likes

0

我正在嘗試使用Linux命令行工具'Poppler'從pdf文件中提取信息。我想爲幾個Spark工作人員提供大量的PDF文件。我需要使用Popplers，而不是PyPDF或任何類似的東西。PySpark：如何在工作人員上安裝Linux命令行工具？

有人知道如何在工人上安裝Poppler嗎？我知道我可以在Python中執行命令行調用，並獲取輸出（或通過Poppler庫獲取生成的文件），但是如何將它安裝在每個工作者上？我使用spark 1.3.1（databricks）。

謝謝！

2015-07-21 Loek Janssen

A

回答

1

正確的方法是將它安裝在所有工作人員上，當您最初設置它們時，您將安裝任何其他Linux應用程序。正如你已經指出的那樣，你可以從Python中退出。

如果不是出於某種原因的選項，那麼你可以運送文件使用addFile方法所有工人：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.addFile

注意，後者的做法不照顧的依賴（庫等）。

2015-07-21 20:31:54 user2303197

相關問題