2012-08-26 110 views
0

我在我的Drupal自定義模塊中使用Simple HTML DOM庫在我的項目中執行任務。php頁面抓取任務

該任務僅僅是模仿Facebook的動作,當我們粘貼一篇文章的URL時,FB會廢棄url並返回文章的一部分作爲描述和圖像。

我的問題是,什麼是使用的算法來挑選文章的第一部分之間的很多<p>標籤,也選擇頁面中的所有圖片之間的正確圖片!

我知道FB使用:OG標籤,但我需要開發一個算法,如果OG標籤不在那裏,就選擇這些信息。

謝謝你們的支持,祝你有美好的一天。

問候。

回答

0

我認爲與圖像是圖像的尺寸。 Th拍攝的第一張圖像的像素大於100x100像素左右。

與文本可能是類似的東西。去掉內聯HTML標籤,獲得第一個塊元素文本(或者可能只是段落),然後你去。