2013-01-14 77 views
1

我測試出來的BigQuery在谷歌API來查詢維基百科全文轉儲,並想運行在維基百科全文轉儲一些查詢。 Google示例數據不包含全文轉儲(僅限修訂歷史記錄)。如何使用谷歌的BigQuery的

有針對維基百科轉儲幾個來源,如這一個在亞馬遜: http://aws.amazon.com/datasets/2506

我的問題是: 有沒有一種方法來查詢這些數據集沒有他們transfering到谷歌的BigQuery工程中的?等價地,BigQuery有直接與這些數據集之一進行通信的方法嗎?

如果是不可能的BigQuery,那麼有沒有在Amazon EC2上的等價服務,可以做同樣的事情?

謝謝。

回答

1

有沒有一種方法來查詢這些數據庫沒有他們轉移到谷歌的BigQuery項目?

號的BigQuery運行鍼對BigQuery項目和數據集。

等價地,BigQuery有一種方法可以直接與其中一個數據集進行通信?

等價的,沒有。原因完全一樣。

如果BigQuery不可能,那麼Amazon EC2中是否有相同的服務可以做同樣的事情?

不,不是真的。有亞馬遜雲搜索,但它基本上運行在同一個主體上,並要求您上傳要搜索的數據。所以除非somone已經將這些數據上傳到亞馬遜雲搜索帳戶,否則沒有上傳數據就沒有辦法。

+0

非常感謝您的詳細解答。您能否就如何有效地傳輸數據提供建議? (我有數據的500GB傳輸) – AdamNYC

+0

以下是創建一個數據集,將數據上傳說明:https://developers.google.com/bigquery/articles/ingestioncookbook 這裏沒有真的比這更有效的方法。在那裏獲取數據會很慢。以下是配額政策: https://developers.google.com/bigquery/docs/quota-policy – Pete

+0

我很感激皮特。 – AdamNYC