Wordnet同步偏移？如何比較單詞

我使用中科院的中文Wordnet。它是Wordnet 1.6的翻譯。不幸的是，它不是免費的，必須購買，手冊基本上是指Wordnet的手冊。我想弄清楚的是如何比較兩個詞之間的相似性。我想這是用WordNetSynsetOffset完成的，但我無法在Wordnet網站上找到任何內容或有關如何使用它來比較兩個單詞的文檔。至於實際的算法，我想這是一個良好的開端http://marimba.d.umn.edu/similarity/measures.html Wordnet同步偏移？如何比較單詞

<Record Conut="65"> 
    <EnglishLemma>exercise</EnglishLemma> 
    <POS>Noun</POS> 
    <WordNetSynsetOffset Version="1.6">00469856</WordNetSynsetOffset> 
    <EnglishFrequancyRank>通用詞彙</EnglishFrequancyRank> 
    <ChineseTransList> 
     <ChineseTrans> 
      <ChineseLemma>例題</ChineseLemma> 
      <ChineseFrequancyRank>通用詞彙</ChineseFrequancyRank> 
     </ChineseTrans> 
    </ChineseTransList> 
</Record>

來源

2011-04-15 MCH

我不完全理解你的問題 - 你發佈的鏈接是我認爲是「什麼是WordNet相似性度量標準」的問題的一個很好的答案。如果我沒有記錯，一個Synset id實際上是原始文件的偏移量，所以在這種情況下，「WordNetSynsetOffset」可能等於Synset Id。 – bwalenz 2011-04-15 16:13:38

所以我認爲你在找什麼（基於評論），是共發現API。

如果中文格式相同，則可以使用隨安裝附帶的WordNet API。這是一個C庫，你可以在這裏找到的文檔：

http://wordnet.princeton.edu/wordnet/documentation/

基本上 - 這裏是它如何工作的。 Synset是由Synset Id（00469856）唯一標識的synset的一組同義詞。 Synsets通過各種形式的語義關係連接到其他synsets。大多數相似性度量標準通過搜索一個Synset（按照您在下面引用的數字，API應該支持這個數字）來工作，然後通過使用各種度量標準來查看另一個Synset距離多遠。

synset還包含syset的語義含義的文本描述 - 我們習慣使用的標準字典定義。在某些情況下，一些相似性度量（例如Lesk算法）使用文本描述來比較兩個synsets之間「相似」的相互關係。

還有其他API可用，它們允許您通過各種語言的API搜索和訪問WordNet。

http://wordnet.princeton.edu/wordnet/related-projects/

舉例來說，這裏是用WordNet 3.0詞典文件的示例同義詞集的定義：

00020671 29 v 04催眠0的自我催眠催眠0 0 0 mesmerise（...更多遺漏）。 ...

唯一標識符00020671標識此synset。催眠這裏有四個同義詞。

來源

2011-04-16 00:10:08 bwalenz

一個單詞可能有許多可能的意義（synsets）。如果你想比較兩種感官之間的相似性，你首先必須消除每個單詞的歧義。一旦你知道你正在比較哪兩種感官，你可以使用@bwalenz建議的。

來源

2011-06-18 20:19:40 Lavanya

Wordnet同步偏移？如何比較單詞

回答

相關問題