2016-01-18 87 views
0

我的目標是使用shell文件解析來自wit.ai的文本,我似乎無法正確使用它,因爲該字符串(名稱爲data)可能大不相同。我一直在嘗試使用sed命令,但沒有運氣。從服務器的響應看起來是這樣的(但請記住,它可能是大小不同):Shell腳本將文本解析爲兩個單獨的字符串

data= 
    {"status":"ok"}{"_text":"testing","msg_id":"56a26ccf-f324-455f-ba9b-db21c8c7ed50","outcomes":[{"_text":"testing","confidence":0.289,"entities":{},"intent":"weather"}]} 

我想解析到一個名爲textintent兩個字符串。

期望的結果應該是兩個字符串如下

text=  "testing" 
intent=  "weather" 

我迄今的代碼是:

data='{"status":"ok"}{"_text":"testing","msg_id":"56a26ccf-f324-455f-ba9b-db21c8c7ed50","outcomes":[{"_text":"testing","confidence":0.289,"entities":{},"intent":"weather"}$ 
text=$(echo $data | cut -d"," -f1)  #removes text down to testing but leaves a quote at the end 
text=$(echo "${text::-1}")    # this line removes the quote 
echo $data 
echo $text 

目前的結果是: {"status":"ok"}{"_text":"testing

我靠近我只需要刪除{"status":"ok"}{"_text":",我只剩下testing。我很接近,但我無法弄清楚這最後一部分。

+1

是那個第一個或第二個「文本」?你的sed命令是什麼樣的? –

+0

這些數據*是什麼意思*?它如何被解釋?在哪些方面可以/不同響應之間有所不同? ''_text「:」testing「在那裏有兩次。這兩種情況如何不同? –

+0

「_text」:「testing」的出現永遠不會相互區別。 – Accentrix

回答

0

正確的方法來處理JSON是使用一個解析器。有噸的選項,例如:

  • jq的 「的grep,sed的& AWK的JSON」
  • JSON.sh,寫在巴什(正式建議上www.json.org)解析器
  • json_pp,在Perl
  • 一個漂亮的打印機

所有這些和你data的問題是,他們抱怨說,它是畸形的;如果他們工作,您可以直接查詢您的數據,如上述鏈接工具的所有教程中所示。

既然你不行,我們就回過頭來直接討論文本。我們可以提取的興趣與grep -o的數據,這些數據只返回它所匹配:

$ grep -o -e '"_text":"[^"]*"' -e '"intent":"[^"]*"'<<< "$data" 
"_text":"testing" 
"_text":"testing" 
"intent":"weather" 

正則表達式位"[^"]*"手段「一帖,然後零個或多個非引號,然後又引用」 –的方式來匹配兩個報價之間的所有內容都非貪婪。

對此進一步處理,我們可以擺脫重複的行與uniq,然後使用SED用等號和一個選項卡,去掉引號和下劃線並最終取代冒號:

$ grep -o -e '"_text":"[^"]*"' -e '"intent":"[^"]*"'<<< "$data" | 
uniq | sed -r 's/"_?(.*)":(.*)/\1=\t\2/' 
text= "testing" 
intent= "weather" 
0

好了它的不完全優雅,但這個似乎工作

data='{"status":"ok"}{"_text":"testing","msg_id":"56a26ccf-f324-455f-ba9b-db21c8c7ed50","outcomes":[{"_text":"testing","confidence":0.289,"entities":{},"intent":"weather"}$ 
text=$(echo $data | cut -d"," -f1)  #removes text down to testing but leaves a quote at the end 
text=$(echo "${text::-1}")    # this line removes the quote 
text=$(echo $text | cut -d"_" -f2)  # removes beginning but still leaves "text":"" 
text=$(echo $text | cut -d":" -f2)  # removes beginning but still leaves """ atr the beginning 
text=$(echo ${text:1}) 
echo $data 
echo $text