2012-02-28 36 views
0

我在Python中使用mwlib來遍歷維基百科轉儲。我想忽略重定向,只看實際完整標題的頁面內容。我已經運行MW-buildcdb,和我加載的是:忽略Wikipedia使用mwlib重定向

wiki_env = wiki.makewiki(wiki_conf_file) 

當我遍歷wiki_env.wiki.articles(),琴絃似乎包含重定向冠軍(我的一對夫婦的樣本對維基百科檢查這一點) 。我沒有看到一個跳過這些的訪問器,而wiki_env.wiki.redirects是一個空字典,所以我無法檢查哪些文章標題實際上只是重定向。

我已經試過翻翻mwlib代碼,但如果我用

page = wiki_env.wiki.get_page(page_title) 
wiki_env.wiki.nshandler.redirect_matcher(page.rawtext) 

出現page.rawtext已經被重定向(包含完整的網頁內容,並沒有跡象表明有標題不匹配)。同樣,由getParsedArticle()返回的Article節點似乎不包含要檢查的「真」標題。

任何人都知道如何做到這一點?我是否需要以不存儲重定向的方式運行mw-buildcdb?據我可以告訴該命令只需要一個輸入轉儲文件和一個輸出CDB,沒有其他選項。

回答