Q

在mediawiki轉儲中解析包含特定文件類型的網址

2014-05-18 35 views 0 likes

0

我有一個很大的.xml文件（大約500mb），它是基於mediawiki的站點轉儲。在mediawiki轉儲中解析包含特定文件類型的網址

我的目標是找到所有包含圖像文件擴展名的url鏈接。然後按照二級域名分組鏈接，並按上述順序僅包含鏈接的導出結果。

例如：有很多以domain.com/ .png，host.com/ .png和image.com/*.png開頭的鏈接。將它們分組在單獨的文件中，並通過特定的二級域名與它的鏈接進行劃分 - 這是最終結果。

2014-05-18 Timurlen

+0

好的，你描述了你想要什麼，問題是什麼？你有什麼嘗試？ – svick

+0

我試過使用grep，但是我可以按上面所寫的將鏈接分組 – Timurlen

A

回答

0

所以你想解析wikitext中的鏈接。編寫一個MediaWiki parser是一個痛苦，所以你應該使用現有的解析器。

最簡單的方法（最簡單但不容易）可能是import your dump進入MediaWiki安裝並重建一些需要的表id，然後導出externallinks表。

2015-05-01 10:54:31 Nemo

相關問題