2014-02-07 27 views
-4

我需要的腳本從這一部分的HTML代碼是網頁標題的所有值上出現多次來定義的Web地址,然後exctract。這是從網站只是一個例子:PHP腳本可以從多個title =某些網站的值中提取文本?

<td><a title="Articlesiteslist.com Analysis" href="http://www.statscrop.com/www/articlesiteslist.com"><img src="http://static.statscrop.com/favicons.png" class="data_original img_icon" data-original="http://s2.googleusercontent.com/s2/favicons?domain_url=articlesiteslist.com" width="16" height="16" alt="articlesiteslist.com" title="articlesiteslist.com"> articlesiteslist.com</a></td> 

明天

從此我只需要標題,所以從標題=「榜樣」唯一的例子價值應該出來。

非常感謝幫助,現在試圖解決這個問題了兩天。

+1

負載與PHP的內置DOM解析器,並做HTML:'的foreach($ dom->的getElementsByTagName( 'A')爲$標籤){ 回聲$ tag-> getAttribute('title'),'
'; }'。 –

+0

如何做到這一點?整個劇本將如何看起來比?對不起,我幾乎不知道有關PHP的任何信息。開幕和結束標記不匹配 – user3281831

回答

0

擴大阿邁勒穆拉利的你需要做以下的想法。

例如你要加載一些 「a.html」 文件:

<html> 
<body> 
Lorem ipsum dolor 
<a title="Ravellavegas.com Analysis" href="http://somewebsite.com/" /> 
sit amet, consectetur adipisicing elit, sed do eiusmod tempor 
<a title="Articlesiteslist.com Analysis" href="http://someanotherwebsite.com/" /> 
incididunt ut labore et dolore magna aliqua. 
</body> 
</html> 

然後,您必須編寫腳本如下:

<?php 

$dom = new DOMDocument(); 
$dom->load('a.html'); 

foreach ($dom->getElementsByTagName('a') as $tag) { 
    echo $tag->getAttribute('title').'<br/>'; 
} 

?> 

此輸出:

Ravellavegas.com Analysis 
Articlesiteslist.com Analysis 

變#2

<?php 
$text = <<<EOT 
<html> 
<body> 
Lorem ipsum dolor 
<a title="Ravellavegas.com Analysis" href="http://somewebsite.com/" /> 
sit amet, consectetur adipisicing elit, sed do eiusmod tempor 
<a title="Articlesiteslist.com Analysis" href="http://someanotherwebsite.com/" /> 
incididunt ut labore et dolore magna aliqua. 
</body> 
</html> 
EOT; 

preg_match_all('/title=".*?"/is', $text, $matches); 
foreach($matches[0] as $m) 
{ 
    $m = str_replace('title="', "", $m); 
    $m = str_replace('"', '', $m); 
    echo htmlentities($m)."<br />"; 
} 
?> 

這仍然輸出:

Ravellavegas.com Analysis 
Articlesiteslist.com Analysis 
+0

我想這個腳本時出現此錯誤。然後檢查我的「變體#2」。 – user3281831

+0

這意味着文件試圖加載似乎不會有一個有效的結構: –

相關問題