首先,這不是一個關於如何刮網站的問題。我完全意識到可用於抓取的工具(css_parser,nokogiri等,我使用Ruby來進行抓取)。如何從網站上刮取徽標?
這是一個關於最好的解決方案的最重要的問題,它可以將網站的標識標識爲僅以網站地址開頭的網站。
這兩種方案我已經開始創造有這些:
- 使用谷歌AJAX API來做到這一點的作用範圍是有問題的網站的圖片搜索,與查詢「標誌」,並搶第一個結果。大約30%的時間,這會得到標誌,我想說。
- 上面的問題是,Google似乎並不關心CSS圖像替換徽標(即H1圖像替換爲徽標)。我暫時想出的解決方案是下拉所有CSS文件,掃描url()聲明,然後在文件名中查找單詞標題或徽標。
解決方案二有問題,因爲所有爲網站編寫CSS的人都有很多特質。他們在文件名中使用標題而不是徽標。有時文件名稱是隨機的,對徽標沒有提及。其他時候,這只是錯誤的形象。
我意識到我可能可能能夠用某種機器學習做某事,但是我對客戶端有點期限,需要一些相當有用的功能。因此,儘管如此,如果任何人有任何「開箱即用」的想法,我很樂意聽到它。如果我可以創建一個運行良好的解決方案,我計劃對任何其他感興趣的各方開放圖書館:)
謝謝!
另外,我想補充一點,我這樣做是爲了減少對我的客戶手動圖像上傳過程。我們將獲得數千條記錄,我希望他們能夠儘可能少地手動上傳。謝謝! – 2011-04-09 20:11:08
關於做類似的東西結合你提出的其中一個搜索什麼:谷歌搜索僅限於根URL識別網站上的多個頁面。掃描兩頁或三頁圖像,並找到所有搜索頁面共有的內容。如果所有頁面都有多個結果,那麼您需要制定某種選擇標準,或許按照大小排列,也許按照頁面內的順序排列......但是我認爲這樣做有點反覆試驗,看看哪些工作有效最好。然後,您可以比較兩種方法的結果,如果他們同意,也許是徽標... – 2011-04-09 20:19:25
這似乎是一個很好的解決方案!我相當新(雖然長期潛伏者),但爲什麼不把它作爲答案呢? – 2011-04-09 20:23:46