0
我試圖使用CoreNLP ColumnDataClassifier來分類大量文檔。我有一百多萬份文件,大約有20000個標籤。使用CoreNLP ColumnDataClassifier進行大型文檔集的文檔分類
就內存要求而言,這甚至可能嗎? (我目前只有16GB)
是否有可能以迭代的方式訓練分類器,將輸入分成許多小文件?
我試圖使用CoreNLP ColumnDataClassifier來分類大量文檔。我有一百多萬份文件,大約有20000個標籤。使用CoreNLP ColumnDataClassifier進行大型文檔集的文檔分類
就內存要求而言,這甚至可能嗎? (我目前只有16GB)
是否有可能以迭代的方式訓練分類器,將輸入分成許多小文件?
作爲一個實驗,我跑:
1.) 500,000 documents, each with 100 random words
2.) a label set of 10,000
這開車撞內存錯誤,甚至當我給它40 GB的RAM。
我也跑:
1.) same 500,000 documents
2.) a label set of 6
這成功運行,完成與16 GB的RAM。
我不確定在什麼時候增長標籤集會導致崩潰,但我的建議是縮小可能的標籤集和實驗。
謝謝!我會開始試驗:) – cookiedealer