正則表達式不太正確

我有一個網站爬蟲，顯示網址列表，但問題是我不能爲我的生活得到最後的正則表達式很正確。所有URL最終列爲：正則表達式不太正確

http://www.website.org/page1.html&--EFTTIUGJ4ITCyh0Frzb_LFXe_eHw 
http://website.net/page2/&--EyqBLeFeCkSfmvA7p0cLrsy1Zm1g 
http://foobar.website.com/page3.php&--E5WRBxuTOQikDIyBczaVXveOdRFg

的URL都可以是不同的，這似乎是靜態的唯一的事情就是&符號。如何去掉&符號及其以外的所有符號？

以下是我與上述結果的嘗試：

function getresults($sterm) { 
$html = file_get_html($sterm); 
$result = ""; 
// find all span tags with class=gb1 
foreach($html->find('h3[class="r"]') as $ef) 
{ 
$result .= $ef->outertext . '<br>'; 
} 
return $result; 
} 

function geturl($url) { 
    $var = $url; 
    $result = ""; 

preg_match_all ("/a[\s]+[^>]*?href[\s]?=[\s\"\/url?q=\']+". 
       "(.*?)[\"\']+.*?>"."([^<]+|.*?)?<\/a>/",    

       $var, $matches); 

$matches = $matches[1]; 

foreach($matches as $var) 
{  
    $result .= $var."<br>"; 
} 

echo preg_replace('/sa=U.*?usg=.*?AFQjCN/', "--" , $result); 

}

來源

2013-02-15 user1823055

Google for」URL [or URI] regular expression「。 – KingCrunch 2013-02-15 00:26:15

不要使用正則表達式來解析HTML！使用DOM解析器。 – 2013-02-15 00:35:13

我是 - 網址中還有一些垃圾因爲某些原因而被清除。 – user1823055 2013-02-15 00:52:39

如果URL總是以相同的格式，使用爆炸：

<?php 
$tmp = explode("&", "http://foobar.website.com/page3.php&--E5WRBxuTOQikDIyBczaVXveOdRFg"); 
?>

$ tmp [0] should content「http://foobar.website.com/page3.php 「和 $ tmp [1] should content」--E5WRBxuTOQikDIyBczaVXveOdRFg「

來源

2013-02-15 01:32:59 Stv

http：//是關於唯一的東西，除了那個點之外，其他所有東西都是一樣的，直到＆符號可以是任何類型的url。在url之後它總是隨機的字符。 – user1823055 2013-02-15 03:01:57

一個簡單的方法&字符後，除去一切：

$result = substr($result, 0, strpos($result, '&'));

來源

2013-02-15 01:20:03 ajshort

這似乎在某種程度上工作了一下，但是發生了什麼事情呢，一切都變成了一個大的長包裹着的字符串，有幾個網址，與之前的那些線路網址相反。任何建議？ – user1823055 2013-02-15 08:59:23

正則表達式不太正確

回答

相關問題