2011-05-10 55 views
0

在下載網站上,我想抓取鏡像網站的所有網址。我正在使用PHP。在下載網站上刮取頁面以提取特定網址

例如,在此頁:

http://drivers.softpedia.com/progDownload/Gigabyte-GA-P55A-UD3-rev-10-Intel-SATA-RAID-Preinstall-Driver-9501037-Download-99091.html 

我想提取以下網址:

http://drivers.softpedia.com/dyn-postdownload.php?p=99091&t=0&i=1 
http://drivers.softpedia.com/dyn-postdownload.php?p=99091&t=0&i=2 
+1

Wut?上述鏈接中的哪兩處是引用了這兩個鏡像鏈接?請澄清。 – 2011-05-10 08:19:21

+1

@Pekka我已經重寫了它,只是等待編輯被批准。鏡像網址位於第一個網址上。 – 2011-05-10 08:23:13

+0

@Blowski啊,我現在明白了。 – 2011-05-10 08:25:39

回答

1

與嘗試:

(http:\/\/drivers\.softpedia\.com\/dyn-postdownload\.php\?p=\d+&t=\d+&i=\d+) 
+0

謝謝!因爲我沒有逃脫元字符(?) – Thoman 2011-05-10 08:25:34

+0

@Thoman好,其中一些轉義只是爲'包含正則表達式。使用像'|'或'%'這樣的替代字符通常會使它更易讀:'preg_match_all(「%http:// drivers \ .softpedia \ .com/dyn-postdownload \ .php \?p = \ d + &t = \ d +&i = \ d +%「,$ buffer,$ matches);' – sakatc 2011-05-10 08:40:07

0

目前還不清楚在哪兒買的「t」和「i」參數來自源url,它只包含id(p)。下面的內容應該用於檢索最後一組數字。

%(\d+)\.html$%