cURL - 僅在html頁面提取數據（鏈接）

我正在構建一個CSS優化器網站，在這裏我將提供一個選項，用戶提交網站URL並在後端服務器將解析所有anchors和link標籤該域名。因此，這將使網站連接+壓縮css，這可能在所有不同的頁面上都是唯一的。cURL - 僅在html頁面提取數據（鏈接）

由於所有我的網站需要的是anchor (html)和<link>我應該怎麼做，以避免獲取鏈接是non-html (like .doc, .pdf)等

2011-04-01 Shishant

我不認爲你可以在目標只是擴展答覆。乾淨的URL最後通常不會有擴展名，可能會生成內容。

您應該對每個URL執行HTTP HEAD然後檢查返回的Content-Type。

2011-04-01 14:35:45

是的，我知道'CURLOPT_NOBODY'，但這意味着我將不得不爲每個''請求任何其他選項？ – Shishant 2011-04-01 14:40:26

是的，但使用HEAD，您不必獲取整個資源。只是基本的信息。 – 2011-04-01 14:44:42

怎麼樣檢查與mime_content_type()相關鏈接的MIME類型？

2011-04-01 14:38:02 jojo

結果與捲曲相同。（事實上它比從curl發出2個請求慢），但這是一個非常讚賞的建議。 – Shishant 2011-04-01 15:11:49

回答