2013-05-08 101 views
1

我有一個關於分塊阿拉伯文本的項目 我想知道是否可以使用NLTK來提取阿拉伯文本的塊,NP,VP,PP以及如何使用阿拉伯語語料庫。 請任何人幫助我!使用nltk分塊阿拉伯文本

+0

我可以生成我自己的Speach部分嗎?或者我可以使用標記文字... – dooja 2013-05-08 08:58:00

回答

1

它遠非完美(很大程度上是因爲阿拉伯語的語言屬性與英語的語言屬性顯着不同),但a computer science student developed an Arabic language analysis toolkit in 2011看起來很有希望。他開發了「一個由詞性標註器和形態分析器組成的綜合解決方案,該工具包在古典阿拉伯語上進行了培訓,並在現代標準阿拉伯語的示例文本上進行了測試。」我認爲這個工具的侷限性在於訓練集是經典的,而測試集是MSA。

該論文是一個很好的開始,因爲它解決了現有的工具及其相對的成功(和缺點)。我也強烈推薦this 2010 paper這看起來像一個傑出的參考。它是also available as a book in print or electronic format

此外,作爲個人筆記,我希望看到一位母語爲NLP的人士使用Google ta3reeb(可作爲Java open source utility)開發更好的工具和庫。只是我的一些想法,我對阿拉伯語NLP的實際經驗非常有限。有很多公司開發了應用阿拉伯語NLP原則的搜索解決方案,儘管他們的許多工作可能是專有的(例如,我知道Basis Technologyworked with this相當廣泛;我不以任何方式隸屬於Basis我也沒有去過)。