我想從大量的谷歌搜索結果中提取網址。由於分隔符不明確,並且並非所有的URL都在代碼中,因此從源代碼獲取它們被證明是相當具有挑戰性的。有沒有一種工具可以從圖像的某個區域提取URL?如果這樣可能是更好的解決方案。如何在圖像中找到網址
任何幫助將不勝感激。
我想從大量的谷歌搜索結果中提取網址。由於分隔符不明確,並且並非所有的URL都在代碼中,因此從源代碼獲取它們被證明是相當具有挑戰性的。有沒有一種工具可以從圖像的某個區域提取URL?如果這樣可能是更好的解決方案。如何在圖像中找到網址
任何幫助將不勝感激。
使用這個優秀的lib:http://simplehtmldom.sourceforge.net/manual.htm
// Grab the source code
$html = file_get_html('http://www.google.com/');
// Find all anchors, returns a array of element objects
$ret = $html->find('a');
// Get a attribute (If the attribute is non-value attribute (eg. checked, selected...), it will returns true or false)
$value = $ret->href;
編輯:
全部 「自然」 搜索URL是在#res的div似乎..隨着simplehtmldom發現第一#res,比裏面的所有網址的。不記得確切的語法,但它必須是這樣的:
$ret = $html->find('div[id=res]')->find('a');
也許
$html->find('div[id=res] a');
就像jQuery for PHP一樣嗎? – Moshe 2011-03-20 19:09:37
沒有。這是一個PHP Classe,它使用本地DOM PHP函數,但使用起來更簡單。 – guillaumepotier 2011-03-20 19:17:23
我想區分付費搜索和自然搜索。找到所有的網址不是問題,問題是找到付費搜索和自然搜索的網址。到目前爲止,我一直在嘗試使用爆炸,但谷歌代碼中的分隔符是混亂的。有什麼建議麼? @ CoBaLt2760 @Moshe – user586011 2011-03-20 20:56:25
嘗試使用JSON/ATOM自定義搜索API來代替:http://code.google.com/apis/customsearch/v1/overview.html。它每天給你100個api呼叫,如果你付費,你可以增加到每天10000個。
圖像如何在某些區域包含URL?你能說出你的意思嗎?這個問題是關於如何抓取Google圖片搜索的嗎?你到目前爲止嘗試了什麼? – mario 2011-03-20 18:39:59
刮谷歌**反對谷歌的ToS **。 – 2011-03-20 18:42:30
你的意思是你想從頁面中提取圖片網址? – Jonah 2011-03-20 18:50:21