如何閱讀帶有網址的網頁的開放圖形和元標記

我希望我的網站能夠在用戶將鏈接粘貼到郵箱時拉起有關網頁的信息，類似於Facebook。如何閱讀帶有網址的網頁的開放圖形和元標記

我想知道Google，Reddit和Facebook等網站如何能夠通過URL檢索縮略圖，標題和描述。

任何人都知道他們是如何做到這一點的？

基本算法比較簡單：取頁，分析內容，提取文字&圖片&標題&無論如何，建立預覽。但是，對於特定的使用情況有很多困難。菜單，橫幅和增加，文本結構 - 大量不同的細節，需要非常嚴格的處理。 AFAIK沒有算法可以在100％的情況下解決這個任務（是的，谷歌和其他算法並不完美）。

關於Reddit。由於它是開源的，你可以找到他們是如何做到的。這裏是代碼你正在尋找： https://github.com/reddit/reddit/blob/master/r2/r2/lib/scraper.py

Yandex的API允許做同樣的事情。你可以找到更多的here和here。

2013-05-27 15:18:34 ajax

謝謝！我應該更新了這篇文章，但我認爲它已經死了。我用cURL得到了我正在尋找的東西。我使用PHP加載網頁，然後掃描元標記。如果有可用的開放式圖表或推特卡，我只會使用圖片，但由於並非每個網站都使用這些圖片，我一直在考慮更深入地進行掃描。儘管沒有考慮廣告。感謝您的資源！ – user1537360

最有趣的部分開始時，根本沒有標記:) – ajax

回答