2008-11-07 52 views
2

我正在構建一個網絡應用程序,我需要獲取給定網址上嵌入的所有圖像和任何Flash視頻(例如,youtube)。我正在使用Python。如何掃描網頁並獲取圖像和YouTube嵌入?

我已經使用了Google搜索,但還沒有找到任何有關此信息的好消息(可能是因爲我不知道這是要求搜索的內容),有沒有人有過這方面的經驗,並知道如何做到這一點?

我希望看到一些代碼示例,如果有任何可用的。

謝謝!

回答

7

BeautifulSoup是一個很棒的屏幕抓取庫。使用urllib2獲取頁面,然後使用BeautifulSoup將其解析。這裏是他們的文檔的代碼示例:

import urllib2 
from BeautifulSoup import BeautifulSoup 

page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php") 
soup = BeautifulSoup(page) 
for incident in soup('td', width="90%"): 
    where, linebreak, what = incident.contents[:3] 
    print where.strip() 
    print what.strip() 
    print 
+0

我只是在這個新的,你將如何屏幕颳了頁面,並獲得視頻網址? – Vincent 2013-12-03 05:05:52