需要一些關於如何在訓練分類器時自動標記主題的想法。我的數據集是abt 50000文本&需要爲它們分配預定義的主題,有沒有需要自動執行此操作?如何在訓練分類器時自動標記主題
1
A
回答
1
如果你能自動做到這一點,爲什麼你需要你的分類器呢?
所以答案是:如果你真的想生成地面實況數據,沒有自動的方法。
如果可能的話,您應該查找先前準備好的標記數據集。否則,您將手動標記所有數據,對不起。
0
您的分類器需要一些訓練數據,這是您的意思嗎?
我最近遇到了同樣的問題,所以我最終做的是我得到了一個簡單的類別和子類別列表,我對這些類型進行了迭代,並嘗試爲每個類別自動提取維基百科文章。
對於類別分類本身,請看http://rdf.dmoz.org/rdf/,這裏有一個categories.txt文件,您可以將其剝離到所需的級別數。 (我使用了兩個級別,所以只有類別和直接子類別)
對於文章提取,您可以使用Goose,這是一個非常易於使用的Python庫,它可以拉取文檔的HTML並將主要文章主體從中移出。
由於我遇到了完全相同的事情,我創建了一個小腳本來完成所有這些工作,請檢查它here。
相關問題
- 1. 用於自動主題標記的MALLET - 帶有訓練數據
- 2. Haar級聯分類器訓練問題
- 3. 訓練我們自己的分類器
- 4. Accord.NET:如何訓練Boost分類器
- 5. 如何增量訓練nltk分類器
- 6. 訓練分類器的時間
- 7. 使用API訓練和重新訓練斯坦福標記器
- 8. Spark MLLib如何在訓練分類器時忽略要素
- 9. OpenCV:訓練級聯分類器
- 10. 重新訓練traincascade分類器opencv?
- 11. Tensorflow線性分類器未訓練
- 12. nltk貝葉斯分類器訓練
- 13. 貝葉斯分類器訓練集
- 14. 如何在apache模型訓練後對新的訓練樣例進行分類?
- 15. 準備一個多標記分類的訓練數據集
- 16. NLTK使用訓練分類
- 17. Tensorflow分類圖像訓練
- 18. 訓練分類模型Opennlp
- 19. 如何在圖像上訓練OpenCV SVM分類器
- 20. 如何在使用Caffe訓練時獲得訓練錯誤?
- 21. Spark隨機森林分類器在訓練時拋出java.lang.OutOfMemoryError
- 22. 如何使用Weka中新近訓練的NaiveBayes分類器對未標記的數據集進行分類
- 23. 當根據訓練集訓練分類器時,如果某些訓練樣本比其他訓練樣本更值錢(更有價值),我該怎麼辦?
- 24. 此前被標記爲NER用於訓練的語料庫NER分類器
- 25. 如何爲斯坦福標記器創建自己的訓練語料庫?
- 26. 神經網絡訓練標準:如何訓練多個類別(即形狀和顏色)沒有過度訓練
- 27. 訓練自己的分類器IBM Watson Visual Recognition Unity3d
- 28. 在訓練模型Tensorflow MNIST分類
- 29. 如何在訓練統計分類器時智能地採樣參數空間
- 30. 如何存儲經過訓練的分類器?
任何啓發式使任務更簡單? –