如何分類但不使用分類或聚類算法？

我有一個履帶式項目，每天都會存儲來自7家不同新聞機構的體育數據。它每天存儲約1200項體育新聞。我想將最近兩天的新聞分類爲子類別。因此，每隔兩天我就會有大約2400條新聞，這些新聞正是這些日子裏的話題，而且他們的許多話題都在講述同一個事件。例如：例如：如何分類但不使用分類或聚類算法？

70消息正在談論布拉德凱瑟洛夫斯基500英里賽車。

120新聞正在談論美國游泳運動員Nyad開始游泳。

28新都在談論曼聯和曼城之間的比賽。

。。。

換句話說，我想製作一些類似Google News的東西。

問題是這種情況不是分類問題，因爲我沒有特殊的類。例如，我的課程不是游泳，高爾夫，足球等。我的課程是這兩年發生的每一個領域的特別活動。所以我不能使用分類算法，如樸素貝葉斯。

另一方面，我的問題也不是解決聚類算法太。因爲我不想強迫他們投入n個集羣。也許其中一條消息沒有任何類似的消息，或者也許只有兩天一包，有12個不同的故事，但在另外兩天，有30個不同的問題。所以我不能使用「單鏈接（最大相似度）」，「完全鏈接（最小相似度）」，「最大加權匹配」或「羣平均值（平均內部相似度）」等聚類算法。

我有一些想法我自己做到這一點，例如，每兩個消息稱，有10個常用詞，應該是在同一個班級。但是如果我們不考慮一些參數，比如文檔長度，普通和罕見詞彙的影響以及其他一些事情，這樣做不會很好。

我已閱讀this paper，但它不是我的答案。

有沒有已知的算法來解決這個問題？

來源

2011-08-08 Soheil

我認爲你絕對在這裏尋找聚類算法。存在的聚類算法並不總是產生一些固定數量的聚類，而是試圖找到看起來相似的元素組。不要把這視爲一種可能性;大量的人工智能研究進入這個領域！ – templatetypedef

該問題打擊我作爲一個聚類問題與羣集未知質量度量。這指向一種無監督的方法，最終基於使用數據中的冗餘來檢測相關性。也許像principal component analysis或latent semantic analysis可能是有用的。不同的維度（主要組成部分或單數向量）將表明不同的主要主題，其中對應於向量組件的術語有希望成爲描述中出現的單詞。一個缺點是，不能保證最強的相關性很容易導致明智的描述。

來源

2011-08-08 15:38:20

這裏有很多文檔聚類算法。例如，看看"Hierarchical document clustering using frequent itemsets"，看看它是否與你想要的相似。如果您使用Java進行編程，您可能會從S-space package中獲得一些優勢，其中包括潛在語義分析（LSA）算法等。

來源

2011-08-08 09:42:47 kc2001

您可以使用分層聚類算法來調查你的項目之間的關係 - （幾乎相同的描述新聞）最近的項目是在同一個集羣，以及最爲接近的羣集（類似新聞組）將在同一超羣等此外，還有相當不錯的和快速的算法稱爲CLOPE - http://www.google.com.ua/url?sa=t&source=web&cd=11&sqi=2&ved=0CF0QFjAK&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.13.7142%26rep%3Drep1%26type%3Dpdf&rct=j&q=CLOPE&ei=gvo_Tsi4AsKa-gas-uCkAw&usg=AFQjCNGcR9sFqhsEkAJowEjIGbDBwSjeXw&cad=rja

來源

2011-08-08 15:08:53 stemm

看看「主題模型」和「潛在Dirichlet分配」。這些都很流行，你會發現各種語言的代碼。

來源

2011-08-08 15:42:02 Iterator

如何分類但不使用分類或聚類算法？

回答

相關問題