我在自然語言處理項目中工作。它旨在建立阿拉伯語圖書館。我們正在開發一個POS tagger,現在我正在考慮語法階段。由於阿拉伯語和其他許多語法都有複雜的語法,因此建立它們的上下文無關語法(CFG)非常困難。出於這個原因,我想出了一個算法,使用無監督學習爲標記語料庫中的任何語言構建CFG(具有概率PCFG)。爲了解釋該算法假設我已這三個標記語句作爲輸入: 1-動詞名詞 2-動詞名詞主題 3-動詞名詞主題副詞 的算法給出: 1)A - >動詞名詞 2) B→A主語 3)C→B副詞。
我們爲每個陳述重複此方法,以便我們可以完成特定的PCFG。算法的主要功能超出了查看整個陳述的事實,所以概率可以是有條件的並且是特定的。之後,可以應用CKY算法爲使用概率的新語句選擇最佳樹。 您是否期望這個算法是好還是不好,是否值得繼續改進。自然語言CFG構建器算法
1
A
回答
1
我爲我的碩士做了類似的工作。論文 - 學習CFG規則(沒有概率) 使用部分語法和POS標記。 請參閱我對this question的回答以獲取有關學習PCFG的參考文獻列表。 一種方法是學習詞彙化的文法,其中包括文字信息和節點名稱。
如果沒有上下文,很難回答你的問題:你認爲一個好的算法是什麼? 一個能夠提供足夠好的語言模型的人嗎?這最大限度地減少了統計測量?這足夠有效嗎?考慮到阿拉伯語豐富的形態,也許你可以增加語法的形態 - 例如,將性別和號碼協議功能添加到它。
相關問題
- 1. 自動機:CFG用於下列語言
- 2. 在生成CFG的語言
- 3. 給一個CFG此語言
- 4. 爲語言生成CFG
- 5. 從AST構建CFG
- 6. 自然語言自動化?
- 7. 創建自然語言問題
- 8. 在Ruby中構建「半自然語言」DSL
- 9. 英語自然語句算法
- 10. 構建以下語言的語法
- 11. 自然語言處理算法電子郵件的心情
- 12. 帶自然語言環境的字符串組塊算法
- 13. 誰有將RegExp翻譯成「自然語言」的算法?
- 14. CFG語法定義
- 15. 機器理解自然語言 - NLP
- 16. 日期自然語言生成器(Java)
- 17. 自然語言處理 - Truecaser分類器
- 18. ibm bluemix自然語言分類器/
- 19. 布爾計算器語言的語法
- 20. ANTLR /語法問題:計算器語言
- 21. 解析自然語言
- 22. 自然語言處理庫
- 23. 功能的「自然語言」
- 24. 自然語言處理庫
- 25. 自然語言處理
- 26. SQl的自然語言
- 27. 自然語言過程
- 28. 自然語言處理/命令(序言)
- 29. 序言自然語言解析
- 30. JPA查詢語言標準構建器