2017-04-14 149 views
0

不斯坦福NLP提供的DocumentPreprocessor火車法語料庫自己和句子分解創建自己的模型來訓練?斯坦福NLP培訓documentpreprocessor

我與德國的句子工作,我需要創建句子拆分任務,我自己的德國模式。因此,我需要訓練句子拆分器,DocumentPreprocessor

有沒有辦法做到這一點?

回答

0

號目前所有歐洲語言標記化是由(手寫)有限自動機來完成。基於機器學習的標記化用於中文和阿拉伯文。目前,所有語言的句子分割都是通過規則完成的,利用分詞器的決定。 (當然,這事情現在只是如何,他們並不怎麼也得是。)

目前我們還沒有獨立的德國標記生成器/分路器的句子。當前的屬性文件只是重新使用英文的文件。這顯然是次優的。如果有人想爲德國人制作一些東西,那就太棒了。 (我們可能會在某些時候做到這一點,但德國的發展目前並不是優先事項清單的最高點。)