我維護一個網站顯示我的大學組織的出版物。從網站抓取PDF文件?
我寫了一個快速和骯髒的Ruby腳本解析包含此數據(我手動抓住從科學網站ISI網)一個CSV文件,並在HTML中的一個不錯的格式顯示。
CSV文件中沒有PDF文件的直接鏈接。取而代之的是,我可以使用doi.org的信息,該信息轉發到真實頁面(由期刊託管),並提供PDF鏈接。
我希望能夠爲CSV文件中的每個出版物轉到該網頁並獲取PDF。
我從來沒有這樣做過。在終端中使用wget,這可以正常工作,除了期刊網站上的HTML鏈接僅僅是「/ link info」,沒有TLD信息。
任何人都可以推薦一個簡單的方法來解決這個問題嗎?
使用實際的gui瀏覽器是真正的矯枉過正,只是下載文件。你也應該介意,並不是每個腳本都是在gui系統上運行的。 – johannes 2009-09-30 14:31:56
@johannes:在評論之前,您可能需要考慮閱讀答案。我還推薦了Mechanize,它*不需要圖形環境。但是,正如我的回答所提及的,它並沒有處理大量的Javascript。如果這是一個問題,我提供了一個替代解決方案。 – Pesto 2009-09-30 14:50:34