0

我目前正在研究TensorFlow(CPU版本)中的RnD,但無法確定我的系統在大型數據集上進行培訓的基本要求,或者我可能偶然發現了TensorFlow庫中可能存在的錯誤。滯後系統或TensorFlow中可能的錯誤?

Official TensorFlow documentation,沒有建議系統建立和運行TensorFlow程序的任何具體要求。根據我的理解,如果可以在Windows,Linux,Mac以及Android,iOS以及RaspberryPi等嵌入式系統上運行,我想應該不會有這樣的硬件要求。然而,在初始研究過程中,我嘗試運行TensorFlow Seq2Seq模型(將英文翻譯成法文https://www.tensorflow.org/tutorials/seq2seq),其中訓練和測試數據集最初需要大約7-8 GB的磁盤空間,並且最初需要20-22Gb總體來說。一旦執行了translate.py python腳本,它最終會阻塞內存並將磁盤利用率分別推高到98%和100%。我現在的系統運行Windows 8.1 64位操作系統,酷睿i5 5200U的時鐘頻率爲2.2 GHz,8GB RAM和HDD上約70GB的可用空間(專門分配給TensorFlow使用)。但即使允許我的系統運行7-8小時(沒有其他應用程序正在運行),它仍會卡住多次,通常在標記數據集後內存使用率達到100%左右。

雖然我不確定,但我想TensorFlow學習圖形是在RAM內部創建的,一旦它擴展到所有內存空間,程序就會以無限循環結束,等待內存清空,然後增加學習圖。

所以整個演習到3個問題:

  1. 不TensorFlow使用RAM建築和保存學習圖形?如果是這樣,是否有可能以類似的方式窒息?
  2. 從業務角度來看,培訓這樣的系統是否存在最低硬件要求?
  3. 如果不是系統要求,這可能是TensorFlow庫中的一個可能的錯誤,它將它推入一個無休止的循環,等待內存被清除?

更新

運行python腳本連續超過30小時後,該進程似乎已經停留在過去的14個小時的位置,同時「閱讀的發展和培訓數據」。請參考下進一步調查圖像:當我正要關閉程序

enter image description here

+1

這不是一個錯誤,它似乎只是你的電腦內存太少,無法對20GB數據集進行深度學習。甚至不考慮GPU。 –

+0

@MatiasValdenegro,你能否詳細介紹一下學習圖形創建過程?是在RAM還是其他地方創建的?是否有一個系統運行這樣一個過程的最低要求? – Cyberpks

+0

是的,在RAM中,你不應該想到最低要求,因爲這完全取決於任務和你的耐心。 –

回答

0

,同樣又開始響應,我等了15-20分鐘,最後我從答案OS本身。這確實是導致問題的低RAM。附加內存不足的系統的Windows警報的屏幕抓取以供參考,以防任何人陷入相同的情況。

enter image description here

UPDATE

我試圖採取在谷歌雲平臺虛擬機實例。這臺機器有2個Intel Xeon(R),每個運行在2.23GHZ,有13GB RAM和50GB存儲空間。但即使應用程序使用了超過10.5 GB的RAM,結果也是如此。看起來像這個教程腳本需要一個非常強大的系統,可能是一臺配備至少32 GB RAM的超級計算機,可以完全運行和執行。我可能會考慮現在編寫/安排我自己的數據集。但是,這必須被視爲將來的增強,以便使用永久存儲(HDD/SSD)創建圖形而不是RAM,以避免內存堵塞。