0
我有一個大約20000個文本文件的語料庫,我想使用這些文本文件來訓練tagger,這更好,可以將這些文本文件分組到一個文本文件中(我不知道它是否會影響標記的準確性或不包括所有這些文本文件在道具文件中?使用多個文本文件訓練Stanford POS tagger
我有一個大約20000個文本文件的語料庫,我想使用這些文本文件來訓練tagger,這更好,可以將這些文本文件分組到一個文本文件中(我不知道它是否會影響標記的準確性或不包括所有這些文本文件在道具文件中?使用多個文本文件訓練Stanford POS tagger
我不認爲這很重要。代碼應該只加載所有的數據,只是爲了方便,如果你把它分成多個文件。此外,您可以爲不同的文件指定不同的輸入格式,但這不會影響最終模型。