recurrent-neural-network

    1熱度

    1回答

    我正在訓練一個seq2seq模型,因爲在seq2seq模型的默認設置下,自定義的平行語料庫包含大約一百萬個句子。 以下是本教程中提到的輸出日誌,它已經越過了350k步。我看到,桶的困惑度突然增加了很多,現在很長時間以來,整個列車的困惑度一直保持在1.02,學習率也初始化爲0.5,但現在它顯示爲0.007左右,所以學習率也顯着下降。系統的輸出並不盡如人意。 如何知道是否已到達時期點,並且應該停止並重

    2熱度

    1回答

    我在theano用戶列表上問了同樣的問題,但沒有回覆,只是想知道是否有人可以幫助我。 我想重新實施基於這個不錯的職位http://www.fit.vutbr.cz/research/groups/speech/publi/2010/mikolov_interspeech2010_IS100722.pdf的RNNLM。 我嘗試了一個玩具測試案例,其中訓練數據是PTB訓練數據的前100個句子(從htt

    3熱度

    2回答

    我想實現一個序列到序列學習的編碼器 - 解碼器模型。 編碼器由字讀取輸入序列字和更新其隱藏狀態。 解碼器使用編碼器的隱蔽狀態,以初始化其隱藏的狀態。然後相對於上次生成的輸出(y(t-1))及其隱藏狀態生成輸出。我想在生成一個特殊的輸出()時停止這個過程。實際上,我想能夠生成不同長度的輸出。我如何在Tensorflow中做到這一點?

    0熱度

    1回答

    我有MxN rgb圖像。所以這裏沒有。的顏色通道將是3(r,g,b)。現在我想構建一個CNN模型。 (M-n + 1)x(M-n + 1)。因此,我的問題是: 我該如何決定否。輸入圖像和第一隱藏層之間的特徵映射等? 功能圖如何與功能通道連接?他們是特徵頻道和彩色頻道之間的任何關係嗎? 我是新的CNN.any接受的回覆類型。

    4熱度

    3回答

    目前,我使用默認64作爲seq2seq tensorflow模型的批量大小。什麼是最大批量大小,圖層大小等,我可以與一個單一的Titan X GPU與12GB RAM和Haswell-E xeon 128GB RAM一起使用。輸入數據被轉換爲嵌入。以下是我使用的一些有用的參數,它看上去細胞輸入尺寸爲1024: encoder_inputs: a list of 2D Tensors [batch_

    0熱度

    1回答

    我構建了一個使用lasagne的LSTM經常性NNet,它基於這個blog post中的體系結構鬆散地構建。我的輸入是一個文本文件,它有大約1,000,000個句子和一個2,000個詞的詞彙表。通常,當我構建網絡的圖像識別我的輸入層看起來像以下: l_in = nn.layers.InputLayer((32, 3, 128, 128)) (其中尺寸爲批量大小,信道,高度和寬度),因爲所有的圖

    0熱度

    1回答

    我一直在試驗非常基本的復發網絡,並看到了非常奇怪的行爲。我花了相當多的時間試圖縮小它出錯的地方,最後我發現當使用遞歸層時,由theano和有限差分計算的梯度是完全不同的。這裏發生了什麼? 這裏是什麼樣的問題,我有:n_steps的 我已經n_seq序列特徵尺寸n_feat的載體,用自己的標籤n_class類之間沿。標籤是每個時間步長,而不是每個序列(所以我有n_seq * n_steps標籤)。

    2熱度

    1回答

    我想在時間序列數據提供時 - 一次一步地增量構建rnn(在幾個初始步驟之後)。 當前rnn()將encoder_input和decoder_input作爲完整序列。 def rnn_seq2seq(encoder_inputs, decoder_inputs, cell, initial_state=None,output_projection=None,feed_previous=False,

    1熱度

    2回答

    TL; DR:雙向RNN是否對簡單文本分類有幫助,並且是填充邪惡? 在我最近的工作中,我爲同樣的任務創建了LSTM模型和BLSTM模型,即文本分類。 LSTM模型做得很好,但我決定給BLSTM一個鏡頭,看它是否會進一步提高精度。最後,我發現BLSTM的收斂速度要慢得多,令人驚訝的是,它過度配置,即使我以50%的概率申請輟學率。 在實施過程中,我爲LSTM和BLSTM都使用了展開的RNN,期待更快的

    0熱度

    1回答

    在theano的教程約RNN,在最後的部分也提到, 我們一直在單位球上的字的嵌入通過每次更新後歸他們: self.normalize = theano.function(inputs=[], updates={self.emb: self.emb/ T.sqrt((self.emb**2)