我有一個網站爬蟲,顯示網址列表,但問題是我不能爲我的生活得到最後的正則表達式很正確。 所有URL最終列爲:正則表達式不太正確
http://www.website.org/page1.html&--EFTTIUGJ4ITCyh0Frzb_LFXe_eHw
http://website.net/page2/&--EyqBLeFeCkSfmvA7p0cLrsy1Zm1g
http://foobar.website.com/page3.php&--E5WRBxuTOQikDIyBczaVXveOdRFg
的URL都可以是不同的,這似乎是靜態的唯一的事情就是&符號。 如何去掉&符號及其以外的所有符號?
以下是我與上述結果的嘗試:
function getresults($sterm) {
$html = file_get_html($sterm);
$result = "";
// find all span tags with class=gb1
foreach($html->find('h3[class="r"]') as $ef)
{
$result .= $ef->outertext . '<br>';
}
return $result;
}
function geturl($url) {
$var = $url;
$result = "";
preg_match_all ("/a[\s]+[^>]*?href[\s]?=[\s\"\/url?q=\']+".
"(.*?)[\"\']+.*?>"."([^<]+|.*?)?<\/a>/",
$var, $matches);
$matches = $matches[1];
foreach($matches as $var)
{
$result .= $var."<br>";
}
echo preg_replace('/sa=U.*?usg=.*?AFQjCN/', "--" , $result);
}
Google for」URL [or URI] regular expression「。 – KingCrunch 2013-02-15 00:26:15
不要使用正則表達式來解析HTML!使用DOM解析器。 – 2013-02-15 00:35:13
我是 - 網址中還有一些垃圾因爲某些原因而被清除。 – user1823055 2013-02-15 00:52:39