使用Linux wget標籤來抓取網站

有一些網站 - www.elections.am/votersreg ，我想知道如何在本網站使用linux wget標籤獲取整個信息？感謝使用Linux wget標籤來抓取網站

2012-10-03 asdf

什麼是「標籤」？ – 2012-10-03 21:00:15

也許這是指一個「命令」的奇怪方式？ – duskwuff

如果你想做一些很酷的東西使用perl和嵌入的LWP :: Simple，你可以加載網站，如果你需要更多的智能perl也包含一些www庫來輸入內容並提交它。 http://search.cpan.org/~gaas/libwww-perl-6.04/lib/LWP/Simple.pm –

可以使用wget -r或安裝一個名爲「的HTTrack」程序，並用它來的URL鏡像到一個文件夾

來源

2012-10-04 07:05:12 hackwa

試試webhttrack。 –

另一個答案建議「的wget -r」這可能爲你工作。但是，爲了最好地「抓住本網站的所有信息」，如你的問題所述，我認爲'wget --mirror'或者'wget --mirror --convert-links'將是更強大的解決方案。 -r選項默認爲遞歸的5個級別，其中--mirror提供無限級別的遞歸。 --convert-links選項將根據需要轉換下載文檔中的鏈接，以使其適合本地瀏覽，如果這是您的目標。

我會在這裏的'無限遞歸'方面小心。這可能會失控，因此您可能需要監視下載進度。您還可以使用--level = depth選項顯式定義遞歸深度。

來源

2017-01-07 06:51:55 airhuff

使用Linux wget標籤來抓取網站

回答

相關問題