2014-01-08 24 views
1

我是新來的使用Python網頁上的HTML頁面。 我試圖從我的電腦離線運行BBC網站,並且爲此寫了一個python代碼。 我已經通過瀏覽主頁上的鏈接(使用正則表達式)製作了下載網站上所有html頁面的函數。 我有一個本地目錄的所有鏈接,但它們都被稱爲sub0,sub1,sub2。 如何編輯主頁,以便將所有鏈接指向我的目錄中的html頁面而不是網頁上的網頁? 再次,頁面不會以其原始名稱調用 - ,因此用本地目錄替換域將不起作用。 我需要一種方法來瀏覽主頁上的所有鏈接並更改其整個路徑。試圖下載html頁面來創建一個非常簡單的網絡爬蟲

回答

1

我認爲最好的辦法是創建一些映射文件。該文件將映射BBC網站上的原始URL =>計算機上文件的路徑。當您從主頁上獲取鏈接時,您可以非常輕鬆地生成該文件。然後,當您想要離線抓取該站點時,您可以簡單地迭代該文檔並訪問本地文件路徑。或者,您可以在原始主頁上抓取並搜索映射文件中的鏈接,並找出它們導向的文件。

這種方法有一些明顯的缺點,最明顯的是更改下載頁面的目錄結構/文件名將打破您的爬行...