2012-11-01 93 views
3

我們如何找到synset中的單詞短語?尤其是,藉此同義詞集的形容詞「黃牌警告」:synset中的wordnet word短語

預訂,從事,休耕 - (提前預訂)

我使用RitaWN Java包(共發現版本是2.1 ),並且似乎無法找到這些短語。在上面的例子,當我運行

RiWordnet wordnet = new RiWordnet(null); 
String[] syn = wordnet.getSynset(word, "a", true); 
for(int i = 0; i < syn.length; i++) 
      System.out.println(syn[i]); 

它只輸出

預訂接合

雖然 「休耕」 未列入。

我測試了很多,並沒有找到所有的短語。又如:

商品,商品好,好 - (商業物品)

那麼 「好交易」 不會從getSynset()方法返回。那麼我們怎麼才能真正得到短語?

(從http://rednoise.org/rita/wordnet/documentation/index.htm獲得ritawn包)

回答

1

RiTaWN默認忽略「複合詞」。您可以禁用此選項以獲取短語的完整列表(以下第2行)。

RiWordnet wordnet = new RiWordnet(); 
wordnet.ignoreCompoundWords(false); 
String[] syn = wordnet.getSynset("booked", "a", true); 
System.out.println(Arrays.asList(syn)); 

結果:

[INFO] RiTa.WordNet.version [033] 
[booked, engaged, set-aside] 
1

這個答案是有點過右場,但在任何情況下...

Idilia有一個在線WORDNET樣數據庫,實際上是更完整並且比Wordnet更豐富。根據你在應用程序中的位置,它可能是有道理的,所以我提到它。網站上有Java訪問的編碼示例。

在這種情況下,查詢:

[{ 「FS」: 「預訂/ J1」, 「引理」:[], 「定義」:空}]

將返回

{ 「FS」: 「預訂的/ J1」, 「引理」:[ 「set_aside」, 「休耕」, 「接合」, 「預訂」 ], 「定義」:「提前預訂」。 }