2

我有一個履帶式項目,每天都會存儲來自7家不同新聞機構的體育數據。它每天存儲約1200項體育新聞。 我想將最近兩天的新聞分類爲子類別。因此,每隔兩天我就會有大約2400條新聞,這些新聞正是這些日子裏的話題,而且他們的許多話題都在講述同一個事件。例如: 例如:如何分類但不使用分類或聚類算法?

70消息正在談論布拉德凱瑟洛夫斯基500英里賽車。

120新聞正在談論美國游泳運動員Nyad開始游泳。

28新都在談論曼聯和曼城之間的比賽。

。 。 。

換句話說,我想製作一些類似Google News的東西。

問題是這種情況不是分類問題,因爲我沒有特殊的類。例如,我的課程不是游泳,高爾夫,足球等。我的課程是這兩年發生的每一個領域的特別活動。所以我不能使用分類算法,如樸素貝葉斯。

另一方面,我的問題也不是解決聚類算法太。因爲我不想強迫他們投入n個集羣。也許其中一條消息沒有任何類似的消息,或者也許只有兩天一包,有12個不同的故事,但在另外兩天,有30個不同的問題。所以我不能使用「單鏈接(最大相似度)」,「完全鏈接(最小相似度)」,「最大加權匹配」或「羣平均值(平均內部相似度)」等聚類算法。

我有一些想法我自己做到這一點,例如,每兩個消息稱,有10個常用詞,應該是在同一個班級。但是如果我們不考慮一些參數,比如文檔長度,普通和罕見詞彙的影響以及其他一些事情,這樣做不會很好。

我已閱讀this paper,但它不是我的答案。

有沒有已知的算法來解決這個問題?

+4

我認爲你絕對在這裏尋找聚類算法。存在的聚類算法並不總是產生一些固定數量的聚類,而是試圖找到看起來相似的元素組。不要把這視爲一種可能性;大量的人工智能研究進入這個領域! – templatetypedef

回答

2

該問題打擊我作爲一個聚類問題與羣集未知質量度量。這指向一種無監督的方法,最終基於使用數據中的冗餘來檢測相關性。也許像principal component analysislatent semantic analysis可能是有用的。不同的維度(主要組成部分或單數向量)將表明不同的主要主題,其中對應於向量組件的術語有希望成爲描述中出現的單詞。一個缺點是,不能保證最強的相關性很容易導致明智的描述。

1

您可以使用分層聚類算法來調查你的項目之間的關係 - (幾乎相同的描述新聞)最近的項目是在同一個集羣,以及最爲接近的羣集(類似新聞組)將在同一超羣等 此外,還有相當不錯的和快速的算法稱爲CLOPE - http://www.google.com.ua/url?sa=t&source=web&cd=11&sqi=2&ved=0CF0QFjAK&url=http%3A%2F%2Fciteseerx.ist.psu.edu%2Fviewdoc%2Fdownload%3Fdoi%3D10.1.1.13.7142%26rep%3Drep1%26type%3Dpdf&rct=j&q=CLOPE&ei=gvo_Tsi4AsKa-gas-uCkAw&usg=AFQjCNGcR9sFqhsEkAJowEjIGbDBwSjeXw&cad=rja

2

看看「主題模型」和「潛在Dirichlet分配」。這些都很流行,你會發現各種語言的代碼。