我有幾百萬個短文檔(最多30個字),我需要將其分成幾個已知類別。有可能,文檔匹配幾個類別(很少,但可能)。文檔也可能不匹配任何類別(很少)。我還擁有數百萬份已被分類的文件。我應該使用什麼算法來完成這項工作。我不需要太快。我需要確保算法正確(儘可能)分類。
我應該使用什麼算法?在C#中有一個實現嗎?
謝謝你的幫助!文本分類算法
文本分類算法
回答
看看term frequency and inverse document frequency也cosine similarity找到創建類別和指定文件類型重要的話基於相似
編輯:
找到一個例子here
也許一個決策樹結合NN?
你能告訴我NN是什麼嗎? – StuffHappens 2010-10-08 14:25:52
NN =「神經網絡」 – Mick 2010-10-08 14:52:21
恕我直言,這裏的主要問題是文件的長度。我想我會稱之爲短語分類,並且由於推特的原因,這方面的工作正在進行。您可以帶上額外的文字,對30個單詞進行網絡搜索,然後分析頂級匹配。有一篇關於此的文章,但我現在找不到它。然後,我會嘗試使用特徵向量方法(如Jimmy的答案中的tdf-idf)和用於分類的多類SVM。
您可以使用SVM算法將C#中的文本與libsvm.net庫進行分類。
爲什麼遲到(而不是完整的答案)? – 2017-12-12 09:23:55
- 1. 最佳文本文檔分類算法
- 2. Java文本分割算法
- 3. 文本分組算法
- 4. 新聞文章多類分類算法
- 5. 分類:VFI5算法
- 6. 用於文本分類的質心算法,工具?
- 7. 將文本分組爲段算法
- 8. 文本分類:可擴展文本分類與多類文本分類
- 9. 文本分類分類器
- 10. 算法計算betweem文本
- 11. 數字根分類算法
- 12. 分類算法,使用R
- 13. 算法問題分類
- 14. 最優分類算法
- 15. 分類遺傳算法
- 16. 最新的分類算法
- 17. C文本算法
- 18. 評估分數的分類算法
- 19. Woocommerce分類文本
- 20. 短文本分類
- 21. 分類算法,分類可以作爲百分比
- 22. 如何分類但不使用分類或聚類算法?
- 23. nltk naivebayes分類器的文本分類
- 24. 文本分類分類指針
- 25. 這個變量應該用什麼分類算法進行文檔分類?
- 26. 多文本比較算法
- 27. 文本比較算法
- 28. 文本生成算法
- 29. AS3動態文本算法
- 30. 文本搜索算法
http://www.tfidf.com/可能有用。 – Koray 2017-04-10 08:54:14