2011-04-18 39 views
2

我有來自OpenNLP的POS標記輸入...我需要使用這些與WordNet ...但wordnet只使用4個標籤 - 名詞,動詞,形容詞,副詞...在哪裏OpenNLP生成標籤基於 Penn treebank tagset。我需要將它們轉換爲與wordnet兼容的標籤...我在網站上發現了 this - 但它的所有python ..我需要java從樹庫標籤轉換爲Java中的wordnet兼容標籤?

同意我可以自己寫一個簡單的函數來重命名這些標籤..但是如何處理像DT,PP,PDT,POS,MD等其他標籤...

回答

1

有關您想要用WordNet關聯做什麼的更多信息可能會有所幫助,但我的第一個猜測是您想要放棄不能幹淨地映射到WordNet類別的詞類。

例如,考慮DT(確定器)。你是否希望在WordNet的'the'和'an'之間建立關係?同樣,在WordNet中可能有PP(介詞)的有用關係,但我懷疑你更有可能找到不同名詞或動詞之間的有用關係,而不是封閉類詞之間的關係。

我的建議是首先將每個TreeBank詞性標記映射到一個WordNet類,或者將那些沒有明顯映射的詞類映射到'null'(可以可能在某個地方找到了這樣的映射,但只有36個標籤,這對您自己來說可能會很容易)。

對於封閉的單詞,您可能決定使用另一個關係元數據源,但這可能取決於應用程序的最終目標。

+0

我說過這一切都在我的問題..當然,我可以手動映射,然後編寫一個函數...但不會影響我的應用程序?我正在嘗試從wordnet中提取同義詞?對於在映射過程中使用空標籤的單詞我會做什麼操作?我將如何處理這些非wordnet標籤?這是主要的問題... – 2011-04-18 20:10:49

+1

你的應用程序是什麼?從WordNet中提取同義詞通常不是最終目標。例如,您想爲「an」找到什麼樣的映射?我沒有任何東西可以接近WordNet的專家,但我不希望找到「an」,「the」,「of」等反義詞的同義詞。同義詞和反義詞的概念沒有多大意義爲封閉的話語。 – AaronD 2011-04-18 20:18:07

+0

提取文本摘要的synsets是我的應用程序.. – 2011-04-19 03:31:37