2011-05-25 197 views
1

我試圖從我的大學的一個網站上抓取數據,該網站使用Shibboleth作爲身份驗證/保護的一種形式。但是,我很難確定通過它的最佳方式以及我想要抓取的頁面。我有有效的憑據,我可以使用它登錄。有沒有人有任何建議如何完成這項任務?如何從受Shibboleth保護的網站上抓取數據?

+0

也許你應該谷歌,並保持你的自我 – Ibu 2011-05-25 04:07:14

+0

@Ibu爲什麼?他不問如何繞過安全,只是如何以編程方式登錄。 – 2011-05-25 04:09:12

回答

0

我相信ECP輪廓是設計的非瀏覽器客戶端(即命令行)訪問Shibboleth的受保護的資源

嘗試一個Shibboleth wiki頁面上提供的示例客戶端我上面鏈接的

0

您也可以嘗試Apache JMeter,只記錄您的操作,製作一些腳本(並非如此簡單shibboleth),您可以自動訪問此頁面。

[編輯 - 更好的解決方案] 我相信在Shibboleth文檔頁面是scripts磨牀(另一個負載測試工具)。這個測試計劃實際上應該很容易修改和用於你的目的的Python(ok Jython)腳本

1

我一直在研究腳本Shibbolized登錄成功(在我的情況下,爲了監視Shibboleth IdP及其保護的應用程序)。

我使用Python的urllib模塊及其類來處理重定向跟隨和cookie傳遞(用於Shibboleth)和登錄表單發佈。經過一些修改後,urllib可以讓您通過Shibbolized登錄成功。您可以使用這種方法來處理Shibbolized網站的初始登錄,然後通過直接使用Python的urllib來處理這個問題。

Example Python script for logging into Shibboleth