我想解析一個網站的robots.txt文件(其中Facebook是一個隨機的網址)。如何使用PHP解析robots.txt文件?
我想擺脫任何不適合用戶代理的行(如本例中的前兩個)。所以也許擺脫任何不以A,D或U開頭的行?
我也想讓每個用戶代理自己的關聯數組的標題是用戶代理即得到所有的谷歌機器人允許和不允許的網址我將print_r $ arr [googleBot]。
這是我的代碼到目前爲止!
<?php
//URl to start crawling
$start = "https://www.facebook.com";
//Url to crawl, crawled or not crawl
$crawling = array();
$crawled = array();
$disallow = array();
function getRobots($url)
{
$robotsUrl = $url . "/robots.txt";
ini_set("user_agent","Agent (https://www.useragent.com)");
$robots = @file_get_contents($robotsUrl);
$robots = explode("\n", $robots);
$robots = preg_grep('/[^\s]/', $robots);
print_r($robots);
}
$result = getRobots($start);
那你被卡在了什麼地方? – sal