使用API訓練和重新訓練斯坦福標記器

我想使用由多個文件組成的語料庫來訓練斯坦福標記器，並將在未來進行擴展。使用API訓練和重新訓練斯坦福標記器

是否可以更新existant模型，還是每次都必須使用整個語料庫進行訓練？

是否有任何如何使用API進行培訓的例子？ MaxentTagger的JavaDoc僅涵蓋通過命令行進行的培訓。

謝謝！

2014-10-19 wlukas2

目前，您必須每次訓練使用整個語料庫。（使用附加數據更新模型在理論上是可行的，但它不是目前存在的，並且不在我們的前端系統上。）

我們從命令行執行所有模型訓練....實際上，看着代碼，它似乎像列車方法是私人的，所以你需要使它更公開，才能夠從API進行培訓。我們應該解決該問題。可能試圖做到這一點。

如果訪問等級不同，你可以創建一個TaggerConfig，然後調用這個方法：

private static void trainAndSaveModel(TaggerConfig config) throws IOException { ... }

但是，即使如此，它目前始終保存其內置惡搞到磁盤。所以，事情可以通過一些修改來順利實現。

2014-10-20 20:32:41

使用API​​訓練和重新訓練斯坦福標記器