2014-03-28 87 views
1

我有以下的鏈接,當通過網絡瀏覽器時,下載一個csv文件。使用wget與越野車url

http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre= 

然而,使用wget時使用Cygwin,與下面的命令,wget的檢索我的文件,這是不是一個CSV文件,但沒有擴展名的文件。該文件是空的,例如根本沒有數據。

wget 'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre=' 

所以,因爲我討厭被卡住,我也嘗試了以下。我把網址中的文本文件,並使用wget與文件選項

內fic.txt

'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre=' 

我以下列方式

wget -i fic.txt 

使用wget的我得到了以下錯誤

Scheme missing 
No URLs found in toto.txt 

我非常樂意接受任何建議。

最好。

回答

2

我想我可以建議一些其他的選項,讓你的底層問題更清楚,它應該是html,但沒有內容(content-length = 0)。

更具體地說,這

wget -S -O export_classement.html 'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre=' 

產生這種

Resolving pro.allocine.fr... 62.39.143.50 
Connecting to pro.allocine.fr|62.39.143.50|:80... connected. 
HTTP request sent, awaiting response... 
    HTTP/1.1 200 OK 
    Server: nginx 
    Date: Fri, 28 Mar 2014 09:54:44 GMT 
    Content-Type: text/html; Charset=iso-8859-1 
    Connection: close 
    X-ServerName: WEBNX2 
    akamainocache: no-store 
    Content-Length: 0 
    Cache-control: private 
    X-KompressorName: kompressor7 
Length: 0 [text/html] 

2014-03-28 05:54:52 (0.00 B/s) - ‘export_classement.html’ saved [0/0] 

此外,該服務器定製它基於瀏覽器識別自己的輸出。使用wget確實可以選擇在頭中包含任意的用戶代理。以下是一個例子,當您將wget標識爲Chrome時會發生什麼情況。 Here's a list of other possibiities

wget -S --user-agent="Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.152 Safari/537.36" 'http://pro.allocine.fr/film/export_classement.html?typeaffichage=2&lsttype=1001‌​&lsttypeperiode=3002&typedonnees=visites&cfilm=&datefiltre=' 

現在則輸出變爲export.csv,與類型 「application /八位字節流」 而不是 「text/html的」

HTTP request sent, awaiting response... 
HTTP/1.1 200 OK 
Server: nginx 
Date: Fri, 28 Mar 2014 10:34:09 GMT 
Content-Type: application/octet-stream; Charset=iso-8859-1 
Transfer-Encoding: chunked 
Connection: close 
X-ServerName: WEBNX2 
Edge-Control: no-store 
Last-Modified: Fri, 28 Mar 2014 10:34:17 GMT 
Content-Disposition: attachment; filename=export.csv 
+0

嗨waTeim,謝謝您的回答。然而,當我把我的url鏈接到網頁瀏覽器時,它是如何檢索文件的? –

+0

@AndyK服務器返回200/OK,所以沒有錯誤。有一個URL讓人認爲服務器上有一個名爲export_classement.html的文件,-O選項強制wget在本地寫入export_classement.html,但這是任意的。該文件什麼也沒有。 – waTeim

+0

請嘗試在網絡瀏覽器上使用以下鏈接嗎? 'http://pro.allocine.fr/film/export_classement.html?typeaffichage = 2&lsttype = 1001&lsttypeperiode = 3002&typedonnees = visites&cfilm =&datefiltre =' –