我有一個履帶式項目,每天都會存儲來自7家不同新聞機構的體育數據。它每天存儲約1200項體育新聞。 我想將最近兩天的新聞分類爲子類別。因此,每隔兩天我就會有大約2400條新聞,這些新聞正是這些日子裏的話題,而且他們的許多話題都在講述同一個事件。例如: 例如:如何分類但不使用分類或聚類算法?
70消息正在談論布拉德凱瑟洛夫斯基500英里賽車。
120新聞正在談論美國游泳運動員Nyad開始游泳。
28新都在談論曼聯和曼城之間的比賽。
。 。 。
換句話說,我想製作一些類似Google News的東西。
問題是這種情況不是分類問題,因爲我沒有特殊的類。例如,我的課程不是游泳,高爾夫,足球等。我的課程是這兩年發生的每一個領域的特別活動。所以我不能使用分類算法,如樸素貝葉斯。
另一方面,我的問題也不是解決聚類算法太。因爲我不想強迫他們投入n個集羣。也許其中一條消息沒有任何類似的消息,或者也許只有兩天一包,有12個不同的故事,但在另外兩天,有30個不同的問題。所以我不能使用「單鏈接(最大相似度)」,「完全鏈接(最小相似度)」,「最大加權匹配」或「羣平均值(平均內部相似度)」等聚類算法。
我有一些想法我自己做到這一點,例如,每兩個消息稱,有10個常用詞,應該是在同一個班級。但是如果我們不考慮一些參數,比如文檔長度,普通和罕見詞彙的影響以及其他一些事情,這樣做不會很好。
我已閱讀this paper,但它不是我的答案。
有沒有已知的算法來解決這個問題?
我認爲你絕對在這裏尋找聚類算法。存在的聚類算法並不總是產生一些固定數量的聚類,而是試圖找到看起來相似的元素組。不要把這視爲一種可能性;大量的人工智能研究進入這個領域! – templatetypedef