2014-03-31 60 views
7

我發現了一個Python腳本(here: Wikipedia Extractor),可以從(English) Wikipedia database dump生成純文本。 當我使用這個命令(因爲它的腳本的頁面上註明):從維基百科數據庫轉儲生成純文本

$ python enwiki-latest-pages-articles.xml WikiExtractor.py -b 500K -o extracted 

我得到這個錯誤:

File "enwiki-latest-pages-articles.xml", line 1 < mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.8/http://www.mediawiki.org/xml/export-0.8.xsd" version="0.8" xml:lang="en">

^ 
SyntaxError: invalid syntax 

我執行使用Python 2.7.6 &腳本Cygwin在Windows 7上。

我希望如果有人已經使用過這個腳本或者Python的經驗可以幫我解決這個錯誤。

在此先感謝!

回答

14

python的第一個參數應該是腳本名稱。

你可能需要更換xmlpy文件名:

$ python WikiExtractor.py enwiki-latest-pages-articles.xml -b 500K -o extracted 
+0

感謝您的答覆。雖然正確的順序是我在腳本的頁面中說明的,但我嘗試了你的建議並得到了這個結果:「用法:WikiExtractor.py [options]」,這意味着文件名應該在第一位。 – Asim

+4

@Asim我認爲你幾乎是正確的 - 在文件內容方面應該通過管道提取到wiki提取器,比如'cat enwiki-latest-pages-articles.xml | python WikiExtractor.py -b 500K -o提取。試一試。 – alecxe

+0

哇,終於有效了!非常感謝你,我真的很感激。 – Asim