2014-05-18 35 views
0

我有一個很大的.xml文件(大約500mb),它是基於mediawiki的站點轉儲。在mediawiki轉儲中解析包含特定文件類型的網址

我的目標是找到所有包含圖像文件擴展名的url鏈接。然後按照二級域名分組鏈接,並按上述順序僅包含鏈接的導出結果。

例如:有很多以domain.com/ .png,host.com/ .png和image.com/*.png開頭的鏈接。將它們分組在單獨的文件中,並通過特定的二級域名與它的鏈接進行劃分 - 這是最終結果。

+0

好的,你描述了你想要什麼,問題是什麼?你有什麼嘗試? – svick

+0

我試過使用grep,但是我可以按上面所寫的將鏈接分組 – Timurlen

回答

0

所以你想解析wikitext中的鏈接。編寫一個MediaWiki parser是一個痛苦,所以你應該使用現有的解析器。

最簡單的方法(最簡單但不容易)可能是import your dump進入MediaWiki安裝並重建一些需要的表id,然後導出externallinks表。

相關問題