2012-04-03 61 views
0

我已經下載了維基百科最新的轉儲並解析它一個MySQL數據庫。現在我有數據庫表,只包含標題和內容。我的要求是從這張表中提取所有傳記內容。所以我想要一個轉儲文件,所有的傳記標題。 在此先感謝在維基百科訪問傳記的標題

+0

有一個數據庫表只包含與該標題相關的標題和內容。這是我通過解析enwiki-articles-latest.xml得到的。但我的要求是隻獲取與傳記類別名稱有關的內容。如果我有維基百科中的所有傳記列表,我可以從我的數據庫表中獲取內容。 – 2012-04-03 05:27:02

回答

0

如果您想獲取某個類別及其所有子類別中的所有文章,則需要使用the categorylinks table並遞歸執行以獲取子類別中的文章。

從你的問題中不清楚你到底想要什麼。如果你想傳記,請看Category:Biography。如果您想要傳記的文章,請查看Category:People的子類別。

+0

我需要關於人物的文章。我可以獲得維基百科有關人物的所有文章主題。像一個mysql轉儲 – 2012-04-03 11:29:14

+0

不,你需要自己走過類別樹。 – svick 2012-04-03 11:31:56