2009-04-24 117 views
12

如何類似於谷歌新聞和Techmeme的集羣新聞項目?有沒有用於實現這一點的知名算法?新聞聚類

感謝您的幫助。

在此先感謝。

回答

9

一種基於內容對文本進行聚類的相當普遍的方法是對單詞向量使用Principle Component Analysis(n維的向量,其中每個可能的單詞表示一個維度並且每個向量的每個方向的量值是數字出現次數這篇文章中的單詞),接着是一個簡單的聚類,比如K-Means。

+9

感謝安迪。感謝你的幫助。 從您的答案研究這個主題時,我發現了一些有用的鏈接。我在這裏發表評論,以便任何對此主題感興趣的人都可以有一個出發點。 分層合併聚類 http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html 教程聚類算法 HTTP://home.dei.polimi .it/matteucc/Clustering/tutorial_html/kmeans.html 信息檢索簡介 http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html – niraj 2009-04-29 15:24:29

5

的算法基礎是合併聚類或類似的東西。但是最重​​要的是有很多啓發式方法。例如,矢量空間肯定包含單詞和短語(單詞n-gram)。在嚴格的時間內限制搜索也非常重要。識別名稱,並更多地標題和段落標題也是關鍵部分。

在切向相關的說明。如果你有興趣找到近似重複的文章,那麼有一些更容易實現的方法,例如所描述的方法here

0

有幾種不同的方法可以實現它。標準是做一個「包字」分析(加權TF-IDF),然後做餘弦相似度和k均值。

我已經受夠了本文的成功:http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851

偉大的事情有關,它是: 1)它是增量,這對於消息是巨大的。使用標準的k-means,你需要擁有整個數據集。隨着新聞,你通常會有文章隨着時間的推移。增量算法解決了這個問題。 2)它是基於短語的。所以它依賴於短語而不僅僅是單詞。

近來,已經有使用語義而不語技術(例如,從每篇文章中提取維基百科或DBpedia的概念,並利用而不只是詞)。