如何使用斯坦福大學NER CFR培訓大型數據集

我正在使用Stanford's NER CRF，並且想要訓練大型數據集，比方說100k篇新聞文章。我如何訓練數據，需要多長時間？我是機器學習領域的新人，希望得到一些指導。如何使用斯坦福大學NER CFR培訓大型數據集

問題1：所有這些變量是什麼意思？哪些人特別應該關注？

numClasses: 8 numDocuments: 100 numDatums: 48721 numFeatures: 168489 Time to convert docs to data/labels: 1.0 seconds numWeights: 4317368 QNMinimizer called on double function of 4317368 variables, using M = 25.

問題2：我應該運行的分佈式系統一臺機器上的訓練，還是像Hadoop的？

問題3：計算似乎是CPU和內存密集型的，我該如何克服這些要求？

來源

2016-03-04 han4wluc

貴國是否能在你的訓練數據的詳細信息。通常你會在人類標記的數據上訓練一個NER系統，比如2003年的CoNLL數據集。你有多少人類標記數據？
爲NER系統中的常見問題，對降低內存的一些建議：

http://nlp.stanford.edu/software/crf-faq.shtml#d
這時還沒有到多臺機器上運行NER培訓的選項。
我對此並不積極，但我認爲在默認情況下，CRFClassifier在評估漸變時將使用多線程......如果它沒有使用多線程，則將以下內容添加到屬性中會導致它開始使用指定線程數的多線程：
```
multiThreadGrad=4 
```

來源

2016-03-10 10:21:01 StanfordNLPHelp

如何使用斯坦福大學NER CFR培訓大型數據集

回答

相關問題