2014-04-09 31 views
1

我們正在構建一個垂直搜索引擎將在計算機領域的搜索維基百科ulrs的。所以,我們希望所有屬於計算機類的維基百科URL。有沒有這樣的數據庫可用?如果不是,我們如何獲取屬於計算機類的Wikipedia的所有URL?我們只需要網址不完整的網頁。數據庫計算機類別

回答

2

是否有這樣的數據庫可用?

您可以試試http://dbpedia.org

我們如何獲取屬於計算機類別的維基百科的所有URL?

檢查Categorymembers API。但是,您將需要遞歸遍歷subcategories,並手動篩選出了很多的網頁。

+2

注意,沒有什麼阻止鏈接到MediaWiki類別的進入循環,像'貓:A' <'貓:B' <'貓:A',它也是有可能的,因爲@Bergi指出,你會在類別樹中找到很多不相關的類別和頁面,以及其他名稱空間(如模板)中的頁面。 – leo

+1

你會的,舉例來說,找到'鋁聚合物composite',澳大利亞藝術家'西蒙Penny'和[模板](https://en.wikipedia.org/wiki/Template:Transformers)在該樹變壓器玩具。 – leo

+0

望着那是[File文件歷史計算]的部分物品(https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Computing)可能是一個更好的選擇:類別:所有計算篇](HTTPS://en.wikipedia .ORG /維基/分類:All_Computing_articles)。 – svick