2011-06-17 28 views
1

我正在通過wn命令行工具使用ruby訪問wordnet來寫一些實驗,因爲我放棄了讓wordnet gem工作。從Wordnet命令行工具獲取POS概率

我希望能夠查找感官的頻率,最終能夠計算給定單詞是名詞/形容詞/動詞/副詞的概率。

我試過了文檔,但並不總是如此明確。

這可能不使用wn工具嗎?我在寫wordnet包含這些信息嗎?

回答

4

據我所知,它不包括頻率本身,但synsets在返回結果中從大多數排序到最不頻繁。

您可以通過多種方式獲得實際頻率。也許最可靠的是使用Penn TreeBank等帶POS標籤的語料庫,然後自己計算這些值。不幸的是,如果你不在大學,那麼獲得免費副本是很困難的。另一個選擇是建立自己的語料庫(可能來自博客,古騰堡計劃書,維基百科,無論如何),在其上運行POS標記器,然後計算頻率。很明顯,這種方法會出現傾斜,但比手動標記語料庫要容易得多。

+0

謝謝。我認爲你說得對,wordnet並沒有明確包含全面的頻率數據,儘管它確實給出了可以估計頻率的差異感知的觀察次數(我不知道從哪裏來)。這些計數出現在'wn -over'的輸出中的感知定義旁邊。這就是說我使用了現成的解析器(如engtagger) – Nat