我在使用keras的非常大的文本數據集上創建神經網絡。爲了構建模型並確保一切正常,我將一小部分數據讀入內存,並使用內置的keras'Tokenizer'來執行必要的預處理,包括將每個單詞映射到令牌。然後,我使用model.fit()。Keras:Tokenizer with fit_generator()on text data
現在,我想擴展到完整的數據集,並沒有空間將所有數據讀入內存。所以,我想製作一個生成器函數來從磁盤順序讀取數據,並使用model.fit_generator()。但是,如果我這樣做,那麼我會在每批數據上分別安裝一個Tokenizer對象,爲每批提供不同的字對標記映射。有沒有辦法解決?有什麼方法可以使用keras連續構建令牌字典嗎?
1)顯示目前你在做什麼一些代碼。 2)爲什麼不分離預處理任務,將映射對象保存在硬盤上,然後在批生成中進行轉換? –