我正在抓取使用捲曲的頁面的源,並且想要從特定標記中提取文本。sed命令從HTML中提取文本
文字是唯一標記之間:
href="http://www.website.com/some/unique/page.php?q=xyz">TEXT</a>
我所做的是什麼:
curl -s "http://www.website.com" | sed 's|PATTERN|\1|'
其中pattern是許多正則表達式模式我都試過之一,其中的一個:
href="http://www.website.com/some/unique/page.php?q=xyz">\(.*\)</a>
但由於某些原因,我無法讓它工作。我要麼獲得整個頁面的源代碼,要麼完全沒有(取決於我使用的模式)。
希望有任何幫助。
我也許應該使用獨特的「元素」,而不是,我很着急。是的,只是文字 – nio 2010-12-16 18:38:35
那麼你想要在URL中鍵入單詞'unique'嗎? – SiegeX 2010-12-16 18:40:21
來源比我提供的文字多。我想從標籤A中提取「TEXT」,其中href =「http://www.website.com/some/unique/page.php?q=xyz」,就像上面提供的模式一樣。 – nio 2010-12-16 18:42:57