1
我使用TreeTagger(http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/)從文本中提取名詞。我的問題是,輸出的格式如下:Bash:從輸出中提取單元格,格式如表
word pos lemma
The DT the
TreeTagger NP TreeTagger
is VBZ be
easy JJ easy
to TO to
use VB use
顯然沒有選項只能得到名詞(「NP」和「NN」)。用bash,我怎麼能得到第一列中有「NP」或「NN」的單元格?
或'awk'$ 2〜/ ^(NP | NN)$/{print $ 1}'file' – Cyrus
這很好,我如何將名詞重定向到數組而不是文件? – Sulli
對於數組使用:'arr =($(awk'$ 2〜/^N [PN] $/{print $ 1}'file))' – anubhava