0
我正在嘗試使用Linux命令行工具'Poppler'從pdf文件中提取信息。我想爲幾個Spark工作人員提供大量的PDF文件。我需要使用Popplers,而不是PyPDF或任何類似的東西。PySpark:如何在工作人員上安裝Linux命令行工具?
有人知道如何在工人上安裝Poppler嗎?我知道我可以在Python中執行命令行調用,並獲取輸出(或通過Poppler庫獲取生成的文件),但是如何將它安裝在每個工作者上?我使用spark 1.3.1(databricks)。
謝謝!