我正在嘗試獲取網頁上的所有文件和網址列表。這與您在輸入某個網址時在http://tools.pingdom.com上列出的列表類似。現在我試圖通過使用cURL或wget在php中執行此操作。有沒有人有關於如何獲得這種文件/路徑列表的建議?如何獲取網頁上的所有文件和網址列表
回答
$url="http://wwww.xyz.com";
$data=file_get_contents($url);
$data = strip_tags($data,"<a>");
$d = preg_split("/<\/a>/",$data);
foreach ($d as $k=>$string){
if(strpos($string, "<a href=") !== FALSE){
$string = preg_replace("/.*<a\s+href=\"/sm","",$u);
$stringu = preg_replace("/\".*/","",$string);
$url = $string
}
}
編輯:一旦你有一個字符串使用正則表達式的文檔,以獲取所有的URL
function getAllUrls($string)
{
$regex = '/https?\:\/\/[^\" ]+/i';
preg_match_all($regex, $string, $matches);
return ($matches[0]);
}
$url_array = getAllUrls($string);
print_r($url_array);
從受保護域收集頁面時,這肯定會被阻止。避免使用'file_get_content','fopen','file'。通常允許cURL實現。 –
@Dexter Huinda,實際上我試圖通過在一些URL上使用wget -p $ url來獲取文件列表。但我發現wget只能從大多數網站獲得index.html。你有什麼建議可以改進我的wget代碼嗎?我用用戶代理嘗試了wget -p並隨機等待設置,但它們不起作用。 –
$ url必須是網站的絕對路徑 – timod
- 1. 如何獲取網頁上出現的所有圖片的網址列表?
- 2. 如何獲取給定網址的所有aspx頁面列表
- 3. 獲取網頁上加載的所有JS文件的列表
- 4. 從網頁獲取所有HTTP網址
- 5. 獲取網頁上所有縮短的網址
- 6. 如何獲取本網頁的網址
- 7. 如何以編程方式獲取網站中的所有網頁的網址
- 8. 如何獲取我上傳文件的網站的網址?
- 9. 獲取一個網站上所有的XML頁面的列表
- 10. 如何從網站獲取所有有效的網址?
- 11. 如何使用python selenium獲取網頁上的所有表單?
- 12. SharePoint - 從網上獲取所有文件
- 13. SharePoint如何獲取所有子網站,子網站列表和列表內容
- 14. 如何從facebook獲取所有公開頁面的網址?
- 15. 如何通過網址獲取所有頁面的URL?
- 16. VS2012 - 如何獲取現有網站上的所有文件?
- 17. 如何使用LinkExtractor獲取網站中的所有網址?
- 18. 網址從一個.csv文件中列出的5K網站的網頁抓取表,所有在R
- 19. Android:如何從網址獲取文件列表
- 20. 獲取網站集中的所有網站而沒有獲取所有列表?
- 21. 如何從頁面獲取所有網址(php)
- 22. 如何從Chrome和Firefox獲取開放網頁的網址?
- 23. 如何使用網頁框在網頁中獲取Flash網址?
- 24. 如何獲取ajax頁面的網址?
- 25. 如何獲取所有新聞文章的網址?
- 26. 如何從網頁的網址中提取網站的網址?
- 27. 從網址獲取文件
- 28. 獲取網絡上的所有IP和MAC地址
- 29. MVC4:網站上可用的所有網址列表?
- 30. 獲取當前網頁的網址
繼續使用捲曲,以避免最安全塊收割的內容時,開發你的代碼。你實際上正在構建一種「谷歌機器人」,祝你好運。 –