4


我有幾百萬個短文檔(最多30個字),我需要將其分成幾個已知類別。有可能,文檔匹配幾個類別(很少,但可能)。文檔也可能不匹配任何類別(很少)。我還擁有數百萬份已被分類的文件。我應該使用什麼算法來完成這項工作。我不需要太快。我需要確保算法正確(儘可能)分類。
我應該使用什麼算法?在C#中有一個實現嗎?
謝謝你的幫助!文本分類算法

回答

0

也許一個決策樹結合NN?

+0

你能告訴我NN是什麼嗎? – StuffHappens 2010-10-08 14:25:52

+0

NN =「神經網絡」 – Mick 2010-10-08 14:52:21

1

恕我直言,這裏的主要問題是文件的長度。我想我會稱之爲短語分類,並且由於推特的原因,這方面的工作正在進行。您可以帶上額外的文字,對30個單詞進行網絡搜索,然後分析頂級匹配。有一篇關於此的文章,但我現在找不到它。然後,我會嘗試使用特徵向量方法(如Jimmy的答案中的tdf-idf)和用於分類的多類SVM。

0

您可以使用SVM算法將C#中的文本與libsvm.net庫進行分類。

+0

爲什麼遲到(而不是完整的答案)? – 2017-12-12 09:23:55