我在Python中使用mwlib來遍歷維基百科轉儲。我想忽略重定向,只看實際完整標題的頁面內容。我已經運行MW-buildcdb,和我加載的是:忽略Wikipedia使用mwlib重定向
wiki_env = wiki.makewiki(wiki_conf_file)
當我遍歷wiki_env.wiki.articles()
,琴絃似乎包含重定向冠軍(我的一對夫婦的樣本對維基百科檢查這一點) 。我沒有看到一個跳過這些的訪問器,而wiki_env.wiki.redirects
是一個空字典,所以我無法檢查哪些文章標題實際上只是重定向。
我已經試過翻翻mwlib代碼,但如果我用
page = wiki_env.wiki.get_page(page_title)
wiki_env.wiki.nshandler.redirect_matcher(page.rawtext)
出現page.rawtext已經被重定向(包含完整的網頁內容,並沒有跡象表明有標題不匹配)。同樣,由getParsedArticle()
返回的Article
節點似乎不包含要檢查的「真」標題。
任何人都知道如何做到這一點?我是否需要以不存儲重定向的方式運行mw-buildcdb?據我可以告訴該命令只需要一個輸入轉儲文件和一個輸出CDB,沒有其他選項。