2016-11-27 103 views
0

我通過wget在Windows下載一個HTML頁面及其文件。
wget -m -k -p -np --html-extensionwget特殊字符內部URL

這個html有很多特殊字符的url。
(例如:<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>

有2個問題:

  1. 內的HTML,網址(包括特殊字符的)變得有些亂語:

期望:

<a href="chp1_資料庫概論.doc" target="_blank">Chp1</a>

實際:

<a href="http://acupun.site/lecture/database/chp1_%B8%EA%AE%C6%AEw%B7%A7%BD%D7.doc" target="_blank">Chp1</a>

  • 文件名是隨機的話。
  • 可以通過添加--restrict-file-names=nocontrol來解決seco​​ned問題。

    如何解決第一個問題?這是Windows版本的問題?

    顯然,裏面的HTML,將其轉換網址有特殊字符的東西......

    回答

    0

    你的問題來自於一個事實,即Windows仍然會對待你的UTF8字符作爲Latin1的字符,甚至與--restrict-file-names=nocontrol命令行參數。 GNU的網站記錄了這個錯誤here,對於Windows用戶至今仍然是一個問題。然而,你的命令可以在Linux環境中工作。