2012-11-02 217 views
0

有沒有一種方法,我可以檢索使用python網頁上的廣告網址? 例如(http://www.quiltingboard.com/resources/)我要找回頂部的廣告,以及右側的URL。那可能嗎?獲取廣告網址

+0

如果你下載文件,它們都很容易找到,HTML包含在頁面中。根據Chromes分析器,圖像廣告的XPath至少是// * [@ id =「google_image_div」]。看看網頁抓取庫:http://scrapy.org/ –

回答

1

可以使用任意的HTML蟒蛇解析器。我最喜歡的是lxml因爲它是快速,但它需要外部依賴...

此外,如果您在任何網站上找廣告,你可能會需要一個list of add domains

0

最好的辦法是用美麗的湯(PyPI將名稱beautifulsoup4) - 它給出了一個漂亮的界面讓你想出來的頁面的內容。文檔是here。它可以使用幾種不同的HTML/XML解析器,從內置的東西html5liblxml