2016-03-23 21 views
-1

提取HTML標題,當我用這個命令上述網址

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print $2$4}' >> new.txt 

它保存在這樣

/player/episode/g0656bgp/the-night-manager-episode-4The Night Manager, Episode 4 

一個txt文件的URL和標題的列表,我想它保存這樣

The Night Manager, Episode 4 
/player/episode/g0656bgp/the-night-manager-episode-4 

標題以上url 對於每個網址和標題

我可以用SED AWK的wget用grep

感謝

+0

使用XML/HTML解析器(xmllint,xmlstarlet ...)。 – Cyrus

+0

祝你好運。你有編程問題嗎?這個網站是爲了問題,而不是一個地方轉儲需求/待辦事項列表 –

+0

看着這個網站上提出的許多問題有很多問題關於各種事情問不只是編程我不能看到我的問題有什麼問題嗎? – bob

回答

0

嘗試:

wget --quiet -O - http://www.some-site.com | egrep -e '/player/episode/[^"]*" title="[.?]*' | awk -F'"' '{print $4"\n"$2}' >> new.txt 

相比於原來的代碼,只有awk改爲:

  • 重新安排的場爲了將字段4先放在字段2之前
  • 然後一個"\n"在它們之間插入一條新線

因此,這成功地導致標題在URL上方,如您所願。只要你的原始代碼適合你,這也應該工作。

+1

謝謝user454038工作我問了這個網站上的4個問題,而且這裏的所有人都非常有幫助Marc B請冷靜下來 – bob