2017-02-09 18 views
0

我正在嘗試在reddit註釋bigquery 2015中查找某些短語的出現次數。這些短語也是通過運行查詢獲得的。我救表結果,這樣的短語可以被訪問(存儲在列):如何計算bigquery中物品的出現次數

SELECT c 
FROM (
SELECT title 
FROM [lucid-bond-156818:bquijob_658cefdf_15a212b8aaf] #the phrases I want to search within reddit comment bigquery 
SELECT COUNT(title) as c in [fh-bigquery:reddit_comments.all_2015] 
) 

我在SQL初學者所以我無法修復它,在最後一行我基本上是想告訴該查詢用於計算reddit註釋2015數據中的標題。

回答

2

要開始使用 - 試試下面
該查詢會給你的標題的列表與評論這個標題出現在計數一起(我認爲這是你問的 - 如果我理解正確的你)。

#legacySQL 
SELECT title, COUNT(1) AS occurrences 
FROM [fh-bigquery:reddit_comments.2005] AS c 
CROSS JOIN YourTableWithTitles 
WHERE body CONTAINS title 
GROUP BY title 
ORDER BY occurrences DESC 

以上假設

正如你所看到的,我使用[fh-bigquery:reddit_comments.2005]表,而不是[fh-bigquery:reddit_comments.all_2015]認爲已存儲在YourTableWithTitles表中title列所有冠軍。這是爲了在測試時使查詢便宜(2005表只有1075行,而all_2015視圖跨越6.68億行)。當您製作最終版本時 - 您可以切換回該視圖

此外,由於此視圖是使用舊版SQL編寫的 - 因此使用此視圖的查詢也必須位於舊版SQL中,因此我也堅持使用它。

正如你初學者 - 這是沒有太大的區別 - 但最好當你得到一點點把它 - 你應該檢查的BigQuery標準SQL

+0

它的工作!非常感謝!!一個要解決的問題 - 對於部分YourTableWithTitles,我不得不插入「表ID爲表名」,表ID爲「作業ID」 – song0089

+0

@ song0089:你確實有很多問題,你沒有接受任何答案。也許你可以通過這些標記並將最好的標記標記爲已接受(當然,只有當他們真的解決了你的問題)?! – Cleb