0
我有一個很大的.xml文件(大約500mb),它是基於mediawiki的站點轉儲。在mediawiki轉儲中解析包含特定文件類型的網址
我的目標是找到所有包含圖像文件擴展名的url鏈接。然後按照二級域名分組鏈接,並按上述順序僅包含鏈接的導出結果。
例如:有很多以domain.com/ .png,host.com/ .png和image.com/*.png開頭的鏈接。將它們分組在單獨的文件中,並通過特定的二級域名與它的鏈接進行劃分 - 這是最終結果。
好的,你描述了你想要什麼,問題是什麼?你有什麼嘗試? – svick
我試過使用grep,但是我可以按上面所寫的將鏈接分組 – Timurlen