在頁面https://developer.android.com/studio/index.html,有一個鏈接到Linux的Android SDK工具,我想通過腳本下載。不幸的是,沒有用於下載最新版本的「簡單」鏈接,所以我想從HTML本身提取鏈接。如何從Bash中的文件中提取HTML錨點的href?
鏈接由ID linux-tools
識別幷包含在多行:
<a onclick="return onDownload(this)" id="linux-tools" data-modal-toggle="studio_tos"
href="https://dl.google.com/android/repository/sdk-tools-linux-3859397.zip">sdk-tools-linux-38593
我想提取href
成一個bash腳本變量。到目前爲止,我得到的最接近的是:
grep -o -z '<a.[^<]*id="linux-tools"[^<]*</a>' index.html
它輸出上述兩行。
如何使用通常可用的shell命令獲取實際鏈接?
我建議使用XML/HTML解析器(xmlstarlet,xmllint ...)。 – Cyrus
@Cyrus是的,我知道。我有一個Python腳本,可以做到這一點,但是我的當前環境限制使用bash腳本,而不是嵌入任何其他語言並且不安裝其他工具。 – Roxy