2012-01-11 100 views
4

我一直在利用大量不同的語料庫進行自然語言處理,並且我一直在尋找一個已經用Wordnet Word Senses註釋的語料庫。Wordnet(Word Sense Annotated)語料庫

我知道這個信息可能沒有一個大的語料庫,因爲語料庫需要手動建立起來,但必須有一些事情要做。

此外,如果沒有語料庫存在,是否至少有一個有意義的帶註釋的ngram數據庫(每個詞的定義的時間百分比或每個詞網定義的數字計數取決於如何常識的意思是)?註釋爲共發現

回答

8

三位著名的語料庫:

+2

SemCor是迄今爲止所有鏈接中最好的一個。看起來現在沒有很多高質量的WordNet註釋語料庫。 – cardine 2012-01-22 08:21:20

+0

@ cardine and cyborg,對於評論抱歉,但我找不到您的聯繫信息。你能通過info @ panabee.com給我發電子郵件嗎?根據你的NLP興趣,我有一個你可能感興趣的小項目。謝謝。 – Crashalot 2013-04-02 21:12:44

0

你可以使用senseval2,對於java有一個semcor格式和(jSemcor API) 也senseval3。 這兩個語料庫用於Word的歧義消除。