我想複製Facebook用來解析鏈接的功能。當您將鏈接提交到您的Facebook狀態時,系統會熄滅並從該頁面檢索建議的title
,summary
以及一個或多個相關的image
,您可以從中選擇縮略圖。使用Python檢索類似Facebook的鏈接摘要(標題,摘要,相關圖像)
我的應用程序需要使用Python完成此操作,但我願意接受任何類型的指南,博客文章或其他開發人員的相關經驗,並可能幫助我弄清楚如何實現它。 。
我真的想只是在跳之前,從別人的經驗中學習
需要明確的是,給定一個網頁的URL的時候,我希望能夠檢索:
- 標題:可能只是
<title>
標記,但可能是<h1>
,不確定。 - 該頁面的一段摘要。
- 一堆可用作縮略圖的相關圖像。 (棘手的部分是過濾掉像橫幅或圓角等不相關的圖像)
我可能必須自己實現它,但我至少想知道其他人是如何執行這些類型的任務的。
BeautifulSoup不能很好地支持關於Python 3.1,它的原作者沒有做太大的發展了。您最好使用lxml.html和/或html5lib(後者由BeautifulSoup作者推薦)。 – lunaryorn 2010-07-21 12:09:45
有用,以備將來參考。謝謝! – 2010-07-21 12:25:42