2012-09-18 92 views
0

我想運行一個腳本從html文件中提取一些字符串,並將所有文件導入到一個新文件中。更具體地說,我想查看所有<td></td>對之間的字符串,如果它們之間的字符串長度爲k,則提取該字符串。如何使用awk提取固定長度的字符串?

+1

awk不是HTML解析器。 –

+0

將html文件視爲普通文件又如何? – DrXCheng

+0

怎麼樣?不要使用面向行的工具來操縱結構化數據。 – tripleee

回答

1

awk不是解析xml的正確工具,但對於這種簡單情況,以下可能已足夠。

awk '/<\/$/ && length == k + 2' RS='td>' k=$K input 

這將輸出每個字符串加上尾隨</。這是一個駭客,不應該被視爲一個可靠,強大的解決方案。

相關問題