1
我正在構建一個簡單的網絡爬蟲,我試圖根據以前是否看到它們來過濾鏈接。問題是,一個鏈接可能是相同的,但有一個正斜槓,參數。我也想過濾掉郵件的。有沒有人知道,直接做到這一點?我目前正在使用pHp。根據是否已經看到過濾鏈接
編輯: 我用Net_URL2.php查看此之後正常化的URL: How do I apply URL normalization rules in PHP?
我正在構建一個簡單的網絡爬蟲,我試圖根據以前是否看到它們來過濾鏈接。問題是,一個鏈接可能是相同的,但有一個正斜槓,參數。我也想過濾掉郵件的。有沒有人知道,直接做到這一點?我目前正在使用pHp。根據是否已經看到過濾鏈接
編輯: 我用Net_URL2.php查看此之後正常化的URL: How do I apply URL normalization rules in PHP?
簡短的回答是否定的,有沒有直接的方法來做到這一點。請閱讀this article about URL normalization以瞭解難以實現的一些原因。
不知道技術術語。發現這是一個結果:http://stackoverflow.com/questions/4175630/how-do-i-apply-url-normalization-rules-in-php。現在工作。 – John