2011-04-15 42 views
1

我使用中科院的中文Wordnet。它是Wordnet 1.6的翻譯。不幸的是,它不是免費的,必須購買,手冊基本上是指Wordnet的手冊。我想弄清楚的是如何比較兩個詞之間的相似性。我想這是用WordNetSynsetOffset完成的,但我無法在Wordnet網站上找到任何內容或有關如何使用它來比較兩個單詞的文檔。至於實際的算法,我想這是一個良好的開端http://marimba.d.umn.edu/similarity/measures.htmlWordnet同步偏移?如何比較單詞

<Record Conut="65"> 
    <EnglishLemma>exercise</EnglishLemma> 
    <POS>Noun</POS> 
    <WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset> 
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank> 
    <ChineseTransList> 
     <ChineseTrans> 
      <ChineseLemma>例題</ChineseLemma> 
      <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank> 
     </ChineseTrans> 
    </ChineseTransList> 
</Record> 
+0

我不完全理解你的問題 - 你發佈的鏈接是我認爲是「什麼是WordNet相似性度量標準」的問題的一個很好的答案。如果我沒有記錯,一個Synset id實際上是原始文件的偏移量,所以在這種情況下,「WordNetSynsetOffset」可能等於Synset Id。 – bwalenz 2011-04-15 16:13:38

回答

4

所以我認爲你在找什麼(基於評論),是共發現API。

如果中文格式相同,則可以使用隨安裝附帶的WordNet API。這是一個C庫,你可以在這裏找到的文檔:

http://wordnet.princeton.edu/wordnet/documentation/

基本上 - 這裏是它如何工作的。 Synset是由Synset Id(00469856)唯一標識的synset的一組同義詞。 Synsets通過各種形式的語義關係連接到其他synsets。大多數相似性度量標準通過搜索一個Synset(按照您在下面引用的數字,API應該支持這個數字)來工作,然後通過使用各種度量標準來查看另一個Synset距離多遠。

synset還包含syset的語義含義的文本描述 - 我們習慣使用的標準字典定義。在某些情況下,一些相似性度量(例如Lesk算法)使用文本描述來比較兩個synsets之間「相似」的相互關係。

還有其他API可用,它們允許您通過各種語言的API搜索和訪問WordNet。

http://wordnet.princeton.edu/wordnet/related-projects/

舉例來說,這裏是用WordNet 3.0詞典文件的示例同義詞集的定義:

00020671 29 v 04催眠0的自我催眠催眠0 0 0 mesmerise(...更多遺漏)。 ...

唯一標識符00020671標識此synset。催眠這裏有四個同義詞。

0

一個單詞可能有許多可能的意義(synsets)。如果你想比較兩種感官之間的相似性,你首先必須消除每個單詞的歧義。一旦你知道你正在比較哪兩種感官,你可以使用@bwalenz建議的。