在下載網站上刮取頁面以提取特定網址

在下載網站上，我想抓取鏡像網站的所有網址。我正在使用PHP。在下載網站上刮取頁面以提取特定網址

例如，在此頁：

http://drivers.softpedia.com/progDownload/Gigabyte-GA-P55A-UD3-rev-10-Intel-SATA-RAID-Preinstall-Driver-9501037-Download-99091.html

我想提取以下網址：

http://drivers.softpedia.com/dyn-postdownload.php?p=99091&t=0&i=1 
http://drivers.softpedia.com/dyn-postdownload.php?p=99091&t=0&i=2

來源

2011-05-10 Thoman

Wut？上述鏈接中的哪兩處是引用了這兩個鏡像鏈接？請澄清。 – 2011-05-10 08:19:21

@Pekka我已經重寫了它，只是等待編輯被批准。鏡像網址位於第一個網址上。 – 2011-05-10 08:23:13

@Blowski啊，我現在明白了。 – 2011-05-10 08:25:39

與嘗試：

(http:\/\/drivers\.softpedia\.com\/dyn-postdownload\.php\?p=\d+&t=\d+&i=\d+)

來源

2011-05-10 08:20:31 hsz

謝謝！因爲我沒有逃脫元字符（？） – Thoman 2011-05-10 08:25:34

@Thoman好，其中一些轉義只是爲'包含正則表達式。使用像'|'或'％'這樣的替代字符通常會使它更易讀：'preg_match_all（「％http：// drivers \ .softpedia \ .com/dyn-postdownload \ .php \？p = \ d + ＆t = \ d +＆i = \ d +％「，$ buffer，$ matches）;' – sakatc 2011-05-10 08:40:07

目前還不清楚在哪兒買的「t」和「i」參數來自源url，它只包含id（p）。下面的內容應該用於檢索最後一組數字。

%(\d+)\.html$%

來源

2011-05-10 08:28:10 ashein

在下載網站上刮取頁面以提取特定網址

回答

相關問題