目前我使用以下方法來從文件中刪除某些網址:獲取URL列表,並進行編號的陣列
sed -e 's!\http\(s\)\{0,1\}://Goog.le[^[:space:]]*!!g' newfile
但由於越來越多的垃圾郵件(我收到更多垃圾郵件的URL,然後真正的網址)我需要添加其他規則。
我想從文件fileA
獲取一個URL列表,將它們放入數組arrayB
,然後向用戶顯示一個indexB
的URL。
然後,我將輸入網址indexB
號碼爲不應刪除的網址。隨着這些數字從高到低排序,我走過arrayB
,從最高指數開始刪除相應的指數。此時我的數組只包含應該從頁面fileA
中刪除的URL。
然後我會再次走過fileA
,當我在頁面和數組中找到一個URL時,我將從該fileA
中刪除該URL到fileB
。現在
我主要關心的是如何與fileA
比較arrayB
並刪除fileA
這是在arrayB
,當頁面上的URL是在一行的URL,刪除行一起。
一個告誡,有時在一行中有一個很好的和一個或多個錯誤的URL,不知道如何處理。
如果我理解正確(fileA = newfile),fileA中的url是黑名單候選列表?什麼是URL列表的格式?一個字符串=一行=一個URL?源和目標的一個簡短例子就可以。 – 2012-03-20 10:10:10
謝謝你的回覆。我的fileA是一個html源文件,其中包含http:.... url在頁面內。有些在一行上,有時在一行中有兩行,有些在文本內部隱藏。 FileA應該是一個被清理的文件。 – 2012-03-20 13:59:14