2013-05-25 55 views

回答

0

基本算法比較簡單:取頁,分析內容,提取文字&圖片&標題&無論如何,建立預覽。 但是,對於特定的使用情況有很多困難。菜單,橫幅和增加,文本結構 - 大量不同的細節,需要非常嚴格的處理。 AFAIK沒有算法可以在100%的情況下解決這個任務(是的,谷歌和其他算法並不完美)。

關於Reddit。由於它是開源的,你可以找到他們是如何做到的。 這裏是代碼你正在尋找: https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

Yandex的API允許做同樣的事情。你可以找到更多的herehere

+0

謝謝!我應該更新了這篇文章,但我認爲它已經死了。我用cURL得到了我正在尋找的東西。我使用PHP加載網頁,然後掃描元標記。如果有可用的開放式圖表或推特卡,我只會使用圖片,但由於並非每個網站都使用這些圖片,我一直在考慮更深入地進行掃描。儘管沒有考慮廣告。感謝您的資源! – user1537360

+0

最有趣的部分開始時,根本沒有標記:) – ajax