2009-09-11 76 views
1

我在自然語言處理項目中工作。它旨在建立阿拉伯語圖書館。我們正在開發一個POS tagger,現在我正在考慮語法階段。由於阿拉伯語和其他許多語法都有複雜的語法,因此建立它們的上下文無關語法(CFG)非常困難。出於這個原因,我想出了一個算法,使用無監督學習爲標記語料庫中的任何語言構建CFG(具有概率PCFG)。爲了解釋該算法假設我已這三個標記語句作爲輸入: 1-動詞名詞 2-動詞名詞主題 3-動詞名詞主題副詞 的算法給出: 1)A - >動詞名詞 2) B→A主語 3)C→B副詞。
我們爲每個陳述重複此方法,以便我們可以完成特定的PCFG。算法的主要功能超出了查看整個陳述的事實,所以概率可以是有條件的並且是特定的。之後,可以應用CKY算法爲使用概率的新語句選擇最佳樹。 您是否期望這個算法是好還是不好,是否值得繼續改進。自然語言CFG構建器算法

回答

1

我爲我的碩士做了類似的工作。論文 - 學習CFG規則(沒有概率) 使用部分語法和POS標記。 請參閱我對this question的回答以獲取有關學習PCFG的參考文獻列表。 一種方法是學習詞彙化的文法,其中包括文字信息和節點名稱。

如果沒有上下文,很難回答你的問題:你認爲一個好的算法是什麼? 一個能夠提供足夠好的語言模型的人嗎?這最大限度地減少了統計測量?這足夠有效嗎?考慮到阿拉伯語豐富的形態,也許你可以增加語法的形態 - 例如,將性別和號碼協議功能添加到它。