2012-03-05 20 views
0

多行我有很多的標籤的HTML頁面這樣如何到grep從HTML頁面

<tr> 
<td> a </td> 
</tr> 

<tr> 
<td> a </td> 
</tr> 

<tr> 
<td> a </td> 
</tr> 

我需要到grep所有這些塊只留下所有其他內容(如普通文本)。

我在pcregrep上看到了一些其他帖子,但對我而言並不清楚。

有人能幫我用grep(或其他解決方案)嗎?

回答

1

您可以使用sed來獲取所有這些塊:

$ sed -n '/<tr>/,/<\/tr>/p' input.html 
<tr> 
<td> a </td> 
</tr> 
<tr> 
<td> a </td> 
</tr> 
<tr> 
<td> a </td> 
</tr> 
+0

這將提取第一個和最後一個之間的所有內容。如果OP只想要塊,這個解決方案我有問題。例如< - 不需要文本 - !>​​...​​... – Kent 2012-03-05 14:02:38

+0

如果''和''總是在分開的線,這條命令的作品。 – kev 2012-03-05 14:18:15

+0

忘記它了。它很難帶來代碼格式的評論。厭倦了讓評論看起來更好。解決這個可能比原來的問題更困難..我放棄了。 – Kent 2012-03-05 14:44:04