2013-11-27 33 views

回答

2

我把原始數據,其上傳至BigQuery,並使其公開。到目前爲止,我已經用'人'和'地點'表完成了。檢查他們在https://bigquery.cloud.google.com/table/fh-bigquery:dbpedia.person

現在很容易就知道什麼是最流行的母校,例如:

SELECT COUNT(*), almaMater_label 
FROM [fh-bigquery:dbpedia.person] 
WHERE almaMater_label != 'NULL' 
GROUP BY 2 
ORDER BY 1 DESC 

這是比這更復雜一點,因爲有些人有一個以上的母校 - 與特定方式DBpedia中編碼。我將完整的查詢留在http://www.reddit.com/r/bigquery/comments/1rjee7/query_wikipedia_in_bigquery_the_dbpedia_dataset/

順便說一下,頂的母校是:

494  Harvard University 
    320  University of Cambridge 
    314  University of Michigan 
    267  Yale University 
    216  Trinity College Cambridge 

你也可以做表之間的聯接。

例如,對於每個有建築師的建築物(從地點表):該建築師出生在哪一年? DBpedia中列出了當年出生的建築師的建築物數量?

SELECT COUNT(*), LEFT(b.birthDate, 4) birthYear 
FROM [fh-bigquery:dbpedia.place] a 
JOIN EACH [fh-bigquery:dbpedia.person] b 
ON a.architect = b.URI 
WHERE a.architect != 'NULL' 
AND birthDate != 'NULL' 
GROUP BY 2 
ORDER BY 2 

結果:

... 
8 1934 
13 1935 
9 1937 
7 1938 
17 1939 
7 1941 
1 1943 
15 1944 
10 1945 
12 1946 
7 1947 
9 1950 
20 1951 
1 1952 
... 

(谷歌的BigQuery有一個免費的每月配額查詢,高達100GB的每個月) (DBpedia的數據從3.4版本對下的條款許可知識共享署名 - 相同方式共享3.0許可協議和GNU自由文檔許可證。http://dbpedia.org/Datasets#h338-24