我試圖找到一種方法來自動從網頁上下載所有鏈接,但我也想重命名它們。例如:從重命名的網頁下載鏈接
<a href = fileName.txt> Name I want to have </a>
我希望能夠得到一個名爲'我想要的名字'的文件(我不擔心擴展名)。
我知道我可以得到頁面源代碼,然後解析所有的鏈接,並手動下載它們,但我想知道是否有任何內置的工具。
lynx --dump | grep http:// | cut -d ' ' -f 4
將打印可以批量獲取與wget的所有環節 - 但有沒有辦法重命名的飛行聯繫?
感謝您的建議使用什麼語言/框架。另一個問題是整個頁面是否採用非Unicode編碼(KOI8-R),您知道Beatuful Soup是否支持各種編碼? – iliaden
如果你看看它的首頁上的第一段幾段,它說它嘗試自動檢測,如果失敗,你可以指定一個源編碼,並且它轉換爲UTF-8。 –