如何從Wiki獲取10.000靜態html頁面的數據集

我正在研究分類算法。爲了做到這一點，我需要一個包含來自wikimedia的大約10,000個靜態HTML頁面的數據集。類似 page-title-1.html .... page-title-10000.html如何從Wiki獲取10.000靜態html頁面的數據集

我試過谷歌，我發現我的最佳解決方案是從http://dumps.wikimedia.org/other/static_html_dumps/2008-06/en/下載它。

但是，我不知道如何使用它來獲得我想要的。

有一些文件如下

html.lst 2008-Jun-19 17:25:05 692.2M application/octet-stream 
images.lst 2008-Jun-19 18:02:09 307.4M application/octet-stream 
skins.lst 2008-Jun-19 17:25:06 6.0K application/octet-stream 
wikipedia-en-html.tar.7z 2008-Jun-21 16:44:22 14.3G application/x-7z-compressed

我想知道如何與* .LST文件做，什麼是wikipedia-en-html.tar.7z

來源

2013-07-01 PhucNguyen

下載7zip解壓壓縮文件。 http://www.7-zip.org/ – RichieHindle

是的，感謝您的建議，我會嘗試它，但維基百科-en-html.tar.7z約爲14G，它需要一些時間來獲取文件，我只是想確定我是否可以獲取html文件或其他* .lst文件。我不知道如何處理* .lst文件。 – PhucNguyen

'* .lst'文件包含文件列表，而不是實際的內容。我懷疑主存檔包含HTML - 它更可能是維基標記。 – RichieHindle

您可能需要閱讀the section "Static HTML tree dumps for mirroring or CD distribution" of Database download on Wikipedia（實際上是整個頁面，該頁面指向7zip用於解壓主檔案）。

來源

2013-07-01 20:59:07 RichieHindle

如何從Wiki獲取10.000靜態html頁面的數據集

回答

相關問題