如何提取僅嵌入HTML頁面中的網頁內容(如img,pdf,flv,doc,rtf,wmc等)而不是css和css背景圖像,javascript。如何提取嵌入在<body>內的html頁面中的網頁內容?
我正在將內容舊網站遷移到新網站。重新上傳所有圖像,鏈接pdf,flv等。
如何提取僅嵌入HTML頁面中的網頁內容(如img,pdf,flv,doc,rtf,wmc等)而不是css和css背景圖像,javascript。如何提取嵌入在<body>內的html頁面中的網頁內容?
我正在將內容舊網站遷移到新網站。重新上傳所有圖像,鏈接pdf,flv等。
爲此,您需要一個HTML解析器。在Perl中,有HTML::Parser模塊。
如果您使用過XHTML,則可以使用普通的XML解析器。
BeautifulSoup類op python是一個非常好的解析器,在做這種操作時非常方便。
我該怎麼辦是什麼過程 – 2009-11-26 11:56:31
對不起,我不明白你的問題 – 2009-11-27 08:40:58
只需加上「有效」 XHTML :) – Bozho 2010-01-08 12:54:15