我正在從國家地震信息中心(USGS)自動下載地震參數。不幸的是,他們的格式是一堆廢話,我認爲我不會有太多的運氣說服他們改變他們的格式。所以,我必須格式化它們的<pre>
html塊,以便以表格形式表示。字符串塊格式化挑戰
但是我的字符串格式化經驗有限,所以我被卡住了(但是確定有人可能有解決方案)。這裏有一個例子:
curl --silent http://earthquake.usgs.gov/earthquakes/eqinthenews/2010/uu00002715/uu00002715_gcmt.php |\
sed -n '/<pre>/,/<\/pre>/p' |\
egrep -v '(#)|(pre>)' |\
egrep '(MW)|(ORIGIN)|(LAT)|(DEP)|(BEST DBLE)|(NP1)'
這使我需要格式化的信息:
April 15, 2010, UTAH, MW=4.6
ORIGIN TIME: 23:59:42.8 0.4
LAT:41.72N 0.03;LON:110.86W 0.03
DEP: 12.5 1.8;TRIANG HDUR: 0.6
BEST DBLE.COUPLE:M0= 1.07*10**23
NP1: STRIKE=193;DIP=35;SLIP= -80
我想一個格式像這樣:
name date time lon lat dep dep_err Mw M0 strike dip slip
UTAH 2010/04/15 23:59:42.8 -110.86 41.72 12.5 1.8 4.6 1.07e23 193 35 -80
注經度要轉換到東經(因此符號改變)。
我想解決在awk
,python
,或unix shell
命令,但我會招待ruby
或perl
(我只是大概不會明白是怎麼回事)。
我很謙虛。非常感謝! –