2016-03-04 41 views
0

我正在使用Stanford's NER CRF,並且想要訓練大型數據集,比方說100k篇新聞文章。我如何訓練數據,需要多長時間?我是機器學習領域的新人,希望得到一些指導。如何使用斯坦福大學NER CFR培訓大型數據集

問題1: 所有這些變量是什麼意思?哪些人特別應該關注?

numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25.

問題2:我應該運行的分佈式系統一臺機器上的訓練,還是像Hadoop的?

問題3:計算似乎是CPU和內存密集型的,我該如何克服這些要求?

回答

0
  • 貴國是否能在你的訓練數據的詳細信息。通常你會在人類標記的數據上訓練一個NER系統,比如2003年的CoNLL數據集。你有多少人類標記數據?

  • 爲NER系統中的常見問題,對降低內存的一些建議:

    http://nlp.stanford.edu/software/crf-faq.shtml#d

  • 這時還沒有到多臺機器上運行NER培訓的選項。

  • 我對此並不積極,但我認爲在默認情況下,CRFClassifier在評估漸變時將使用多線程......如果它沒有使用多線程,則將以下內容添加到屬性中會導致它開始使用指定線程數的多線程:

    multiThreadGrad=4