2013-07-01 128 views
2

現在我試圖比較來自兩個不同文件,一個英文,一箇中文的單詞。我必須確定是否有任何英文單詞與中文單詞有關,如果它們是,它們是平等還是一個是另一個的上位詞。我可以使用英文synsets,但是我可以怎樣處理中文單詞?NLTK synset與其他語言

回答

1

看起來有一個臺灣大學的中文(cmn)WordNet:http://casta-net.jp/~kuribayashi/multi/。如果此WordNet與英文WordNet格式相同,則可以使用NLTK中的WordNetCorpusReader(http://nltk.googlecode.com/svn/trunk/doc/api/nltk.corpus.reader.wordnet-pysrc.html#WordNetCorpusReader)導入普通話數據。我不知道你是如何在兩個數據集之間進行排列或翻譯,但假設你可以將英語映射到中文,這應該可以幫助你找出兩個英文單詞之間的關係與兩個普通話單詞之間的關係。請注意,如果您的數據使用簡化腳本,則在使用此cmn WordNet之前,您可能還需要轉換爲傳統腳本。

+0

; P「Open Multilingual WordNet」是非英文wordnet的一個很好的資源,如果ANYONE很樂意編寫NLTK API,請聯繫Francis Bond @ http://www3.ntu.edu.sg/home/fcbond /或史蒂文·伯德http://ww2.cs.mu.oz.au/~sb/或兩者=) – alvas

+0

這就是爲什麼我鏈接到完整列表,而不是僅僅需要WordNet OP。我應該補充說明,爲不同語言開發的本體在跨語言上通常不是相同的,儘管我認爲在許多情況下分層結構可能足夠接近。 – dmh

+0

有可能擁有語言獨立領域特定的本體論,但我不認爲hypo/hypernym hierachies是跨語言關閉的。請參閱http://goo.gl/LkN3h – alvas