我正在使用的bash shell腳本一個項目。這個想法是grep一個wget檢索頁面,以便在網頁上找到某個段落。我想複製的區域,通常有一個過濾掉HTML代碼使用grep
<p><b>
啓動,但該段還包含HTML代碼的其他位,如錨標籤,我不希望在grep的輸出。
我試圖
cat page.html| grep "<p><b>" >grep.txt
,然後我用grep輸出文件,它現在包含段落我想
cat grep.txt|grep -v '<p>|<b>|<a>' >grep.txt
但後來它的作用是明顯的一切從文件,而不是讀什麼。我怎樣才能讓它只排除HTML代碼?
我也試圖遵循在我的grep段落的聯繫,以做同樣的事情與這些網頁。只有2層深,所以主頁面,然後是主頁面的第一段的任何子頁面。我知道這是一個困難的想法,希望我解釋得很好,以獲得一些幫助。如果你有任何想法,任何幫助表示讚賞。
這是一個好主意,除了我從來沒有在python中學過任何東西。這不是一個大問題,我只需要努力一點。 – eragon2262 2013-05-12 01:27:12