有沒有一種方法可以獲得html頁面的主體,而不需要html標籤?沒有HTML標籤的wget
curl和wget返回響應,但包含HTML標籤。我們可以使用sed和awk去除標籤,但是我正在尋找一種現有的工具,它可以在沒有sed和awk的情況下完成。
lynx是一個選項,但它沒有預先安裝。
謝謝!
有沒有一種方法可以獲得html頁面的主體,而不需要html標籤?沒有HTML標籤的wget
curl和wget返回響應,但包含HTML標籤。我們可以使用sed和awk去除標籤,但是我正在尋找一種現有的工具,它可以在沒有sed和awk的情況下完成。
lynx是一個選項,但它沒有預先安裝。
謝謝!
Converting HTML to plain text in PHP for e-mail列出了幾種工具一樣,How can I Convert HTML to Text in C#?。但是,如果lynx -dump
做你想要的,那麼這可能是最好的安裝工具。
我對安裝工具沒有反感。在安裝任何其他軟件包之前,只需要知道是否有現有的工具 – shan