我正在使用Stanford's NER CRF,並且想要訓練大型數據集,比方說100k篇新聞文章。我如何訓練數據,需要多長時間?我是機器學習領域的新人,希望得到一些指導。如何使用斯坦福大學NER CFR培訓大型數據集
問題1: 所有這些變量是什麼意思?哪些人特別應該關注?
numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25.
問題2:我應該運行的分佈式系統一臺機器上的訓練,還是像Hadoop的?
問題3:計算似乎是CPU和內存密集型的,我該如何克服這些要求?