2013-07-28 110 views
4

我想在Elasticsearch中使用synonym tokenfilter作爲索引。我下載了WordNet 3.0的Prolog版本,並找到了Elasticsearch可以理解的wn_s.pl文件。然而,似乎該文件包含各種單詞和短語的同義詞,而我真的只對支持名詞的同義詞感興趣。有沒有辦法提取這些類型的條目?名詞同義詞詞網

+0

你問是否有一臺計算機可以告訴一個單詞是否是名詞?你可以發表一些例子... – ramseykhalaf

+0

不,我問是否有辦法減小文件的大小,使只有名詞仍然存在。例如,如果我搜索'宇宙'(名詞),與'宇宙'相關的結果將成爲命中的一部分,但是如果我搜索'學習'(動詞),只有'學習'這個詞的結果將不會是一部分命中。 – flamecto

+0

您正在使用的代碼示例將有所幫助! – arturomp

回答

8

假設的wn_s.pl格式是

s(112947045,1,'usance',n,1,0). 
s(200001742,1,'breathe',v,1,25). 

一個這樣做將是非常原始的方式來執行在終端下面只採取從該文件中有該行「 N」串。

grep ",n," wn_s.pl > wn_s_nouns_only.pl 

文件wn_s_nouns_only.pl將只有標記爲名詞的條目。

+2

哦,是啊!我怎麼沒有想到這一點。謝謝!你也可以做'grep',n,'wn_s.pl> wn_s_nounsOnly.pl'作爲一個稍微短一點的版本。 – flamecto

+0

同意 - 只是更新了答案! – arturomp