2012-09-09 51 views
0

你好,調整代碼檢索DOM從給定的URL

IM使用下面的代碼來從URL IND所有「A」標記的DOM和打印他們的HREF 現在我的輸出爲包含「A」 I不希望它我出在這裏 http://trend.remal.com/parsing.php 一些內容重複, 我需要清除我的證明是唯一的「A」,其中包括https://twitter.com/ $ namehere 你可以看到我有2種網址我只需要Twitter的網址,避免重複 調整代碼的任何提示

<?php 
include('simple_html_dom.php'); 

$html = file_get_html('http://tweepar.com/sa/1/'); 
foreach($html->find('a') as $e) 
echo $e->href . '<br>'; 
?> 

回答

1
$urls = array(); 

foreach ($html->find('a') as $e) 
{ 
    // If it's a twitter link 
    if (strpos($e->href, '://twitter.com/') !== false) 
    { 
     // and we don't have it in the array yet 
     if (! in_array($e->href, $urls)) 
     { 
      // add it to our array 
      $urls[] = $e->href; 
     } 
    } 
} 

echo implode('<br>', $urls); 

下面是從PHP文檔一些參考:

+0

完美的,就像我想要的!一個更多的調整,如果我想隱藏https://twitter.com/並且僅僅解析它之後的名字,https://twitter.com/test1,並且輸出只是打印test1?! – LeoSam

+0

@MarcoDonJuan - 做一個單獨的問題。 –

+0

這裏做的是單獨的問題:http://stackoverflow.com/questions/12338381/adjust-php-code-retrieve-the-dom-from-a-given-url – LeoSam