2012-11-08 56 views
-1

我想要使用python的任何網站的廢料下載頁面來提取有關版本及其下載鏈接的信息。 我正在學python,想用beautifulsoup來做,但這些頁面非常複雜,看起來很難找到這個東西。 在此先感謝如何使用python廢除任何網站的「下載頁面」

+3

你的問題是如此模糊,沒有人敢回答:) – xtofl

回答

3

歡迎來到堆棧溢出! - 我猜你的意思是「刮」,因爲「廢」意味着「扔掉」。

首先,您必須使用urllib2來創建您想要刮取的頁面的文件對象。閱讀this瞭解如何。

然後,您必須通過檢查頁面的html內容來找出您想要從頁面本身獲得什麼信息。

最後,您將文件對象傳遞給美麗的湯姆的解析器,並導航HTML以返回您正在尋找的信息。

爲了將來的參考,BeautifulSoup有漂亮的文檔。如果你想要善於編程,你必須學習如何閱讀文檔 - 它實際上只是從這裏變得更加困難。

+0

除非完全必要的,我傾向於避免'贊成http://docs.python-requests.org/en/latest/ –

+0

@JonClements的urllib2'我如果有人說他們是初學者,我通常會根據標準庫提供建議。請求是幾個月(或幾周,或幾年,取決於學生如何投入)。 – kreativitea

相關問題