2014-10-19 121 views
0

我想使用由多個文件組成的語料庫來訓練斯坦福標記器,並將在未來進行擴展。使用API​​訓練和重新訓練斯坦福標記器

是否可以更新existant模型,還是每次都必須使用整個語料庫進行訓練?

是否有任何如何使用API​​進行培訓的例子? MaxentTagger的JavaDoc僅涵蓋通過命令行進行的培訓。

謝謝!

回答

1

目前,您必須每次訓練使用整個語料庫。 (使用附加數據更新模型在理論上是可行的,但它不是目前存在的,並且不在我們的前端系統上。)

我們從命令行執行所有模型訓練....實際上,看着代碼,它似乎像列車方法是私人的,所以你需要使它更公開,才能夠從API進行培訓。我們應該解決該問題。可能試圖做到這一點。

如果訪問等級不同,你可以創建一個TaggerConfig,然後調用這個方法:

private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... } 

但是,即使如此,它目前始終保存其內置惡搞到磁盤。所以,事情可以通過一些修改來順利實現。