2011-03-20 86 views
0

我想從大量的谷歌搜索結果中提取網址。由於分隔符不明確,並且並非所有的URL都在代碼中,因此從源代碼獲取它們被證明是相當具有挑戰性的。有沒有一種工具可以從圖像的某個區域提取URL?如果這樣可能是更好的解決方案。如何在圖像中找到網址

任何幫助將不勝感激。

+0

圖像如何在某些區域包含URL?你能說出你的意思嗎?這個問題是關於如何抓取Google圖片搜索的嗎?你到目前爲止嘗試了什麼? – mario 2011-03-20 18:39:59

+1

刮谷歌**反對谷歌的ToS **。 – 2011-03-20 18:42:30

+0

你的意思是你想從頁面中提取圖片網址? – Jonah 2011-03-20 18:50:21

回答

0

使用這個優秀的lib:http://simplehtmldom.sourceforge.net/manual.htm

// Grab the source code 
$html = file_get_html('http://www.google.com/'); 

// Find all anchors, returns a array of element objects 
$ret = $html->find('a'); 

// Get a attribute (If the attribute is non-value attribute (eg. checked, selected...), it will returns true or false) 
$value = $ret->href; 

編輯:

全部 「自然」 搜索URL是在#res的div似乎..隨着simplehtmldom發現第一#res,比裏面的所有網址的。不記得確切的語法,但它必須是這樣的:

$ret = $html->find('div[id=res]')->find('a'); 

也許

$html->find('div[id=res] a'); 
+0

就像jQuery for PHP一樣嗎? – Moshe 2011-03-20 19:09:37

+0

沒有。這是一個PHP Classe,它使用本地DOM PHP函數,但使用起來更簡單。 – guillaumepotier 2011-03-20 19:17:23

+0

我想區分付費搜索和自然搜索。找到所有的網址不是問題,問題是找到付費搜索和自然搜索的網址。到目前爲止,我一直在嘗試使用爆炸,但谷歌代碼中的分隔符是混亂的。有什麼建議麼? @ CoBaLt2760 @Moshe – user586011 2011-03-20 20:56:25