我試圖以編程方式從MusicBrainz網站檢索編輯歷史頁面。 (musicbrainzngs
是MB網絡服務的庫,無法從Web服務訪問編輯歷史記錄)。爲此,我需要使用我的用戶名和密碼登錄MB網站。如何以編程方式從MusicBrainz使用python檢索編輯歷史頁面?
我試過使用mechanize
模塊,並使用登錄頁面的第二個表單(第一個是搜索表單),我提交了我的用戶名和密碼;從迴應中,似乎我成功登錄到該網站;然而,對編輯歷史頁面的進一步請求引發了一個例外:
mechanize._response.httperror_seek_wrapper: HTTP Error 403: request disallowed by robots.txt
我瞭解異常及其原因。我對不濫用網站承擔全部責任(畢竟,任何用法都會用我的用戶名標記),我只是想避免手動打開頁面,保存HTML並在保存的HTML上運行腳本。我能克服403錯誤嗎?
非常感謝您的回答和警告。這是它。 – tzot 2012-03-10 10:15:57