2013-09-21 94 views
-2

我需要一些幫助,我的bash shell對我來說似乎很簡單。我希望能夠提取給定網站的所有鏈接並將其打印到標準輸出。我想通過我自己的腳本來做到這一點。我的目標是擁有命令並擁有網站,我將從中提取所有鏈接,成爲一個參數。這是我到目前爲止有:我需要在Unix下編寫簡單腳本的幫助

貓> extract_links

捲曲$ 1 | grep的

我沒有真多編程經驗很抱歉,如果這不是太大的開始。是否有必要使用正則表達式?如果有人願意提供幫助,那麼儘可能簡單的代碼將非常值得讚賞。謝謝!

+0

與grep匹配鏈接很困難,因爲錨標記可以跨越多行。如果你不是一個程序員,我建議你使用現有的工具來做到這一點,而不是試圖編寫自己的腳本。 – Barmar

回答

0

這是一個班輪:

grep 'https?://[\w/&=.?]+' $1 

這會發現所有的URL。如果通過「鏈接」你真的意思是「錨標籤」,這有點棘手,但可行。你還沒有給出任何樣本輸入或輸出,所以我無法確定你想要什麼。

你可以用正則表達式更有趣。這取決於它們如何嵌入到文檔中

-1

在Python中這很容易。

只需使用x = string.find('href="'),並定義字符串作爲string[x:],並運行string.find('"')並使用該值懵了URL(print string[x:y])。 它放入一個while循環,你應該是好去