斯坦福NLP培訓documentpreprocessor

不斯坦福NLP提供的DocumentPreprocessor火車法語料庫自己和句子分解創建自己的模型來訓練？斯坦福NLP培訓documentpreprocessor

我與德國的句子工作，我需要創建句子拆分任務，我自己的德國模式。因此，我需要訓練句子拆分器，DocumentPreprocessor。

有沒有辦法做到這一點？

2017-04-14 ilgar

號目前所有歐洲語言標記化是由（手寫）有限自動機來完成。基於機器學習的標記化用於中文和阿拉伯文。目前，所有語言的句子分割都是通過規則完成的，利用分詞器的決定。（當然，這事情現在只是如何，他們並不怎麼也得是。）

目前我們還沒有獨立的德國標記生成器/分路器的句子。當前的屬性文件只是重新使用英文的文件。這顯然是次優的。如果有人想爲德國人制作一些東西，那就太棒了。（我們可能會在某些時候做到這一點，但德國的發展目前並不是優先事項清單的最高點。）

2017-05-21 00:22:08

回答