2015-06-08 111 views
0

我想使用wget從網頁下載一些csv文件。 (這是網頁http://sinca.mma.gob.cl/index.php/region/index/id/II)。然而,使用wget我只能得到一些cgi-bin文件和其他格式的文件,我認爲它們可以構建一個csv文件。鑑於我沒有任何關於JavaScript的知識或任何需要構建csv文件的知識,有沒有一種方法可以直接使用wget獲得這些excel文件?如何使用wget獲取csv文件

這是運行的wget --10後的日誌文件:30:06-- http://sinca.mma.gob.cl/index.php/region/index/id/II =>`sinca.mma.gob.cl/index.php/region/index/id/II」 解決sinca .mma.gob.cl ... 190.215.49.125 連接到sinca.mma.gob.cl [190.215.49.125]:80 ...已連接。發送 HTTP請求,等待響應... 200 OK 長度:未指定的[text/html的]

0K .......... .......... .......... .......... .......... 28.17 KB/s 

50K .......... ..........。 ......... .......... .......... 226.24 KB/s 100K。 1.44 MB/s

最後修改的標題丟失 - 時間戳已關閉。 10:30:09(50.81 KB/s) - `sinca.mma.gob.cl/index.php/region/index/id/II.html'已保存[103911]

刪除sinca.mma.gob .cl/index.php/region/index/id/II.html,因爲它應該被拒絕。

已完成--10:30:09-- 下載:103,911字節in 1文件 在0.00秒內轉換成0個文件。

+0

你是否試圖明確下載excel文件?這可能有助於確定權限是否設置爲肯定。 –

+0

手動下載excel文件可以輕鬆完成,沒有任何許可,並使用wget我沒有.csv文件。 – user2246905

+0

那麼它是一個不是excel xls文件的CSV文件嗎? –

回答

0

Wget依賴於選項將獲得您指定的所有文件,如果您要求它抓取所有文件,那麼它將完全執行它,除非權限不允許下載這些文件,如果您使用

wget -r --no-parent http://www.example.com/folder/ 

這將拉動該目錄中的所有文件,文件夾和子文件夾,除非你否定一個特定的類型,例如文件:

要過濾特定文件擴展名:

wget -A pdf,jpg -m -p -E -k -K -np http://site/path/ 

或者,如果你喜歡長選項名稱:

wget --accept pdf,jpg --mirror --progress --adjust-extension --convert-links --backup-converted --no-parent http://site/path/ 

這將反映該網站,但沒有JPG或PDF格式擴展名的文件將被自動刪除。

因此,在回答你的問題,是的,你可以指定你想要所有的Excel文件,沒有別的。

如果它仍然不工作,你可以嘗試使用

-o wget.log 

選項來指定它記錄到一個文件,所以你可以看到發生了什麼事情張貼日誌結果,我會盡力幫助你多一點。

+0

我試過使用這個命令,但沒有找到csv文件。只下載空文件夾。 – user2246905

+0

你的命令運行多久?你有足夠的磁盤空間嗎? –

+0

請參閱編輯我的答案 –

1

您需要提供wget的完整的URL生成你想要的文件,例如:

wget -O test.csv "http://sinca.mma.gob.cl/cgi-bin/APUB-MMA/apub.tsindico2.cgi?outtype=xcl&macro=./RII/237/Cal/PM25//PM25.diario.diario.ic&from=13060100&to=15110323&path=/usr/airviro/data/CONAMA/&lang=esp&rsrc=&macropath=" 

我測試上面,我得到完全相同的csv文件和我一樣,當我點擊鏈接網站。該鏈接運行一些JavaScript生成上面使用的URL。爲了獲得該URL,我點擊了該鏈接,然後複製出現在地址欄中的地址。