我正在編寫一個基本的爬網程序,它簡單地使用PHP緩存頁面。PHP中的網頁爬蟲鏈接/頁面邏輯
它所做的就是用get_file_contents
得到一個網頁和正則表達式的內容,讓所有的環節出<a href="URL">DESCRIPTION</a>
- 此刻它返回:
Array {
[url] => URL
[desc] => DESCRIPTION
}
我有是找出邏輯問題確定頁面鏈接是否是本地的,或確定它是否可能位於完全不同的本地目錄中。
它可以是任何數量的組合:即href="../folder/folder2/blah/page.html"
或href="google.com"
或href="page.html"
- 可能性是無止境的。
什麼是正確的算法來解決這個問題?我不想丟失任何重要的數據。
當然,這將是一個很大的幫助! :) – atomicharri 2008-12-12 01:53:11