2014-09-11 134 views
-1

我想從網站下載數百個pdf文檔。我已經嘗試過諸如SiteSucker和類似的工具,但它不起作用,因爲文件和鏈接到它們的頁面之間似乎存在一些「分離」。我不知道如何以更好的方式來描述這一點,因爲我對網站編程或拼寫知之甚少。關於這可能是什麼以及如何繞過它的任何建議?如何從網站下載鏈接的pdf文件?

更具體地說,我試圖下載聯合國決議的PDF文件,存儲在頁這樣的一個:在聯合國網站上http://www.un.org/depts/dhl/resguide/r53_en.shtml

看起來有一個內置的「搜索功能」,這使得假像SiteSucker一樣刮,不按預期工作。

是否還有其他工具可以使用?

回答

1

單擊您提到的頁面上的鏈接重定向到由兩個框架(html)組成的頁面。第一個是「標題」,第二個加載頁面以生成PDF文件並嵌入其中。 PDF文件的URL很難猜測。我不知道免費的工具可以取消這種類型的頁面。

下面是在該端部到PDF文件中的第二幀中的URL的一個示例:

http://daccess-dds-ny.un.org/doc/UNDOC/GEN/N99/774/43/PDF/N9977443.pdf?OpenElement

+0

感謝。你知道一個可以完成這項工作的非免費工具嗎? – Magnus 2014-09-30 10:40:10

+0

類似的問題另一個網站包含相同的分辨率,但沒有雙層。例如,一年,http://www.worldlii.org/int/other/UNGARsn/1952/有一個robots.txt塊。有什麼辦法可以解決這種問題嗎? – Magnus 2014-09-30 12:03:29