2010-06-17 28 views
0

wget在我的數據挖掘項目中很有用。今天我試着去看下面的網頁。它的內容類型是未指定的,因此在我終止該過程之前連接被掛起。我嘗試了-T,--connect-timeout --read-timeout和--no-http-keep-alive的選項,都失敗了。我嘗試谷歌的答案,讀wget的人。沒有解決方案。有人暗示這個問題可能是特定版本的錯誤。我不知道。我在這裏發佈我的問題,只是想確保有人知道它。Wget超時命令由於未經特別說明的內容而導致特定網址失敗

順便說一下,我的操作系統是Ubuntu 10.04 LTS Lucid Lynx for i386。

wget的--connect超時3 --read時間3 --debug http://www.crvanguard.com.cn/custom/crv/sales/hb.jsp?province=101&city=1010001&shop=0&sale_type=0&pageNo=1

這裏是調試信息(一些中國的調試信息已被翻譯成英文):

 
DEBUG output created by Wget 1.12 on linux-gnu. 

--2010-06-17 19:18:29-- http://www.crvanguard.com.cn/custom/crv/sales/hb.jsp?province=101 
Resolving host www.crvanguard.com.cn... 219.134.63.193 
Caching www.crvanguard.com.cn => 219.134.63.193 
Connecting www.crvanguard.com.cn|219.134.63.193|:80... connected。 
Created socket 3. 
Releasing 0x09b79090 (new refcount 1). 

---request begin--- 
GET /custom/crv/sales/hb.jsp?province=101 HTTP/1.0 
User-Agent: Wget/1.12 (linux-gnu) 
Accept: */* 
Host: www.crvanguard.com.cn 
Connection: Keep-Alive 

---request end--- 
HTTP request sent, waiting for response... 
---response begin--- 
HTTP/1.1 200 OK 
Date: Thu, 17 Jun 2010 11:09:10 GMT 
Server: IBM_HTTP_Server 
Surrogate-Control: no-store 
Set-Cookie: JSESSIONID=0000I2ewO_IHpH5Kly3d8DKm6vn:-1; Path=/ 
Expires: Thu, 01 Dec 1994 16:00:00 GMT 
Cache-Control: no-cache="set-cookie, set-cookie2" 
Connection: close 
Content-Type: text/html; charset=GBK 
Content-Language: zh-CN 

---response end--- 
200 OK 

Stored cookie www.crvanguard.com.cn -1 (ANY)/ [expiry none] JSESSIONID 0000I2ewO_IHpH5Kly3d8DKm6vn:-1 
Content-length: unspecified [text/html] 
Saving to: 「hb.jsp?province=101.1」 

    [                     ] 157,669  210K/s in 0.7s  

Closed fd 3 
2010-06-17 19:18:29 (210 KB/s) - 「hb.jsp?province=101.1」 saved [157669] 

^C 
[10] Done     wget --connect-timeout 3 --read-time 3 --debug http://www.crvanguard.com.cn/custom/crv/sales/hb.jsp?province=101 
[11] Done     city=1010001 
[12] Done     shop=0 
[13] Done     sale_type=0 

看來,即使我指定了超時參數並阻止http-keep-alive選項,wget也無法成功斷開連接。

我使用了錯誤的選項嗎?這是一個錯誤嗎?提前致謝。

回答

1

您的問題是,shell解釋URL中的&號。將URL放在單引號之間。

從技術上講,服務器存在一個錯誤。如果服務器使用HTTP 1.1,它必須指定下列其中一個標題:

  • 的Content-Length:1234
  • 傳輸編碼:分塊

然而,wget的可以處理這個問題。

+0

我試過了,單引號工作。感謝您的及時答覆。其實我試過Windows版本。單引號也有效。 – 2010-06-17 12:07:25

相關問題