2016-12-14 74 views
1

我目前正在使用pyspark和ipython-notebook的推薦系統。我想從存儲在BigQuery中的數據獲取建議。有兩種選擇:Spark BQ連接器和Python BQ庫。Spark BigQuery連接器vs Python BigQuery庫

這兩個工具的優缺點是什麼?

回答

1

Python BQ庫是一種與Python進行BQ交互的標準方式,因此它將包含BigQuery的完整API功能。您提到的Spark BQ連接器是Hadoop Connector - 一個Java Hadoop庫,它允許您使用抽象的Hadoop類從BigQuery讀取/寫入數據。這將更接近您如何與本機Hadoop輸入和輸出進行交互。

您可以找到Hadoop Connector here的示例用法。