2011-11-05 23 views
-1

我試圖做一個應用程序從網上挖掘一些文本,但我不知道什麼是執行文本挖掘的最佳方式。什麼是文本挖掘的基本算法?

我對這個問題的想法是知道什麼是最常用的技術/算法來執行文本挖掘和在文檔中做一些信息檢索(而不是索引)。

回答

5

文本挖掘是一個相當廣泛的術語,它大致意味着機器學習應用於文本。常用的技術包括:平均Dirichlet分配,平均Dirichlet分配,平均Dirichlet分配,均值聚類,樸素貝葉斯和線性SVM分類,tf-idf矢量化,SVD(稱爲LSA)。因此,執行「一些文本挖掘」可能意味着任何事情,就像做「一些信息檢索」一樣。

請參閱劉兵的書網絡數據挖掘爲一個良好的介紹領域。