我發現了一個Python腳本(here: Wikipedia Extractor),可以從(English) Wikipedia database dump生成純文本。 當我使用這個命令(因爲它的腳本的頁面上註明):從維基百科數據庫轉儲生成純文本
$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted
我得到這個錯誤:
File "enwiki-latest-pages-articles.xml", line 1 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">
^
SyntaxError: invalid syntax
我執行使用Python 2.7.6 &腳本Cygwin在Windows 7上。
我希望如果有人已經使用過這個腳本或者Python的經驗可以幫我解決這個錯誤。
在此先感謝!
感謝您的答覆。雖然正確的順序是我在腳本的頁面中說明的,但我嘗試了你的建議並得到了這個結果:「用法:WikiExtractor.py [options]」,這意味着文件名應該在第一位。 – Asim
@Asim我認爲你幾乎是正確的 - 在文件內容方面應該通過管道提取到wiki提取器,比如'cat enwiki-latest-pages-articles.xml | python WikiExtractor.py -b 500K -o提取。試一試。 – alecxe
哇,終於有效了!非常感謝你,我真的很感激。 – Asim