0
我正在編寫應該下載html頁面的bash腳本,並從該頁面提取所有pdf文件的鏈接。使用bash打印所有pdf文件的鏈接
我不得不說,我是新手來打擊所以現在我只能grep所有包含<a href
的行,然後grep這些行有pdf
字。
我可以barelly使用awk
但我不知道怎麼寫正確的正則表達式來獲得<a href="*.pdf">
只有文字,我想有*.pdf
。
編輯:grep "<a href=\"*.pdf\""
沒有找到pdfs的所有鏈接,這怎麼可能?例如找不到<a href="lorem ipsum.pdf">...</a>
。
您應該閱讀有關正則表達式語法的手冊。 '*'(星號)和'.'(點號)有特殊的含義。對於你的'grep'命令,試試''',而不是。 –
是這樣的嗎? [根@木偶:0 NewRelic的-下文]#$回聲代碼 [根@木偶:0 NewRelic的-下文]#$回聲代碼| AWK「BEGIN {FS = 「\」」 } {打印$ 2}」 abc.pdf ..Once你grepped包含PDF和HREF線,嘗試對管道的awk 'BEGIN {FS = 「\」「} {打印$ 2}' –
不使用正則表達式,使用html解析器 – Sundeep