我需要一些幫助,我的bash shell對我來說似乎很簡單。我希望能夠提取給定網站的所有鏈接並將其打印到標準輸出。我想通過我自己的腳本來做到這一點。我的目標是擁有命令並擁有網站,我將從中提取所有鏈接,成爲一個參數。這是我到目前爲止有:我需要在Unix下編寫簡單腳本的幫助
貓> extract_links
捲曲$ 1 | grep的
我沒有真多編程經驗很抱歉,如果這不是太大的開始。是否有必要使用正則表達式?如果有人願意提供幫助,那麼儘可能簡單的代碼將非常值得讚賞。謝謝!
我需要一些幫助,我的bash shell對我來說似乎很簡單。我希望能夠提取給定網站的所有鏈接並將其打印到標準輸出。我想通過我自己的腳本來做到這一點。我的目標是擁有命令並擁有網站,我將從中提取所有鏈接,成爲一個參數。這是我到目前爲止有:我需要在Unix下編寫簡單腳本的幫助
貓> extract_links
捲曲$ 1 | grep的
我沒有真多編程經驗很抱歉,如果這不是太大的開始。是否有必要使用正則表達式?如果有人願意提供幫助,那麼儘可能簡單的代碼將非常值得讚賞。謝謝!
這是一個班輪:
grep 'https?://[\w/&=.?]+' $1
這會發現所有的URL。如果通過「鏈接」你真的意思是「錨標籤」,這有點棘手,但可行。你還沒有給出任何樣本輸入或輸出,所以我無法確定你想要什麼。
你可以用正則表達式更有趣。這取決於它們如何嵌入到文檔中
在Python中這很容易。
只需使用x = string.find('href="')
,並定義字符串作爲string[x:]
,並運行string.find('"')
並使用該值懵了URL(print string[x:y]
)。 它放入一個while循環,你應該是好去
與grep匹配鏈接很困難,因爲錨標記可以跨越多行。如果你不是一個程序員,我建議你使用現有的工具來做到這一點,而不是試圖編寫自己的腳本。 – Barmar