DBpedia剛剛發佈了他們的數據表格,適合導入關係數據庫。我如何使用SQL在線查詢這些數據?如何使用SQL在線查詢DBpedia?
數據集: http://wiki.dbpedia.org/DBpediaAsTables
DBpedia剛剛發佈了他們的數據表格,適合導入關係數據庫。我如何使用SQL在線查詢這些數據?如何使用SQL在線查詢DBpedia?
數據集: http://wiki.dbpedia.org/DBpediaAsTables
我把原始數據,其上傳至BigQuery,並使其公開。到目前爲止,我已經用'人'和'地點'表完成了。檢查他們在https://bigquery.cloud.google.com/table/fh-bigquery:dbpedia.person。
現在很容易就知道什麼是最流行的母校,例如:
SELECT COUNT(*), almaMater_label
FROM [fh-bigquery:dbpedia.person]
WHERE almaMater_label != 'NULL'
GROUP BY 2
ORDER BY 1 DESC
這是比這更復雜一點,因爲有些人有一個以上的母校 - 與特定方式DBpedia中編碼。我將完整的查詢留在http://www.reddit.com/r/bigquery/comments/1rjee7/query_wikipedia_in_bigquery_the_dbpedia_dataset/。
順便說一下,頂的母校是:
494 Harvard University
320 University of Cambridge
314 University of Michigan
267 Yale University
216 Trinity College Cambridge
你也可以做表之間的聯接。
例如,對於每個有建築師的建築物(從地點表):該建築師出生在哪一年? DBpedia中列出了當年出生的建築師的建築物數量?
SELECT COUNT(*), LEFT(b.birthDate, 4) birthYear
FROM [fh-bigquery:dbpedia.place] a
JOIN EACH [fh-bigquery:dbpedia.person] b
ON a.architect = b.URI
WHERE a.architect != 'NULL'
AND birthDate != 'NULL'
GROUP BY 2
ORDER BY 2
結果:
...
8 1934
13 1935
9 1937
7 1938
17 1939
7 1941
1 1943
15 1944
10 1945
12 1946
7 1947
9 1950
20 1951
1 1952
...
(谷歌的BigQuery有一個免費的每月配額查詢,高達100GB的每個月) (DBpedia的數據從3.4版本對下的條款許可知識共享署名 - 相同方式共享3.0許可協議和GNU自由文檔許可證。http://dbpedia.org/Datasets#h338-24)