Q
新聞聚類
12
A
回答
9
一種基於內容對文本進行聚類的相當普遍的方法是對單詞向量使用Principle Component Analysis(n維的向量,其中每個可能的單詞表示一個維度並且每個向量的每個方向的量值是數字出現次數這篇文章中的單詞),接着是一個簡單的聚類,比如K-Means。
5
的算法基礎是合併聚類或類似的東西。但是最重要的是有很多啓發式方法。例如,矢量空間肯定包含單詞和短語(單詞n-gram)。在嚴格的時間內限制搜索也非常重要。識別名稱,並更多地標題和段落標題也是關鍵部分。
在切向相關的說明。如果你有興趣找到近似重複的文章,那麼有一些更容易實現的方法,例如所描述的方法here
0
有幾種不同的方法可以實現它。標準是做一個「包字」分析(加權TF-IDF),然後做餘弦相似度和k均值。
我已經受夠了本文的成功:http://ieeexplore.ieee.org/xpl/articleDetails.jsp?reload=true&arnumber=4289851
偉大的事情有關,它是: 1)它是增量,這對於消息是巨大的。使用標準的k-means,你需要擁有整個數據集。隨着新聞,你通常會有文章隨着時間的推移。增量算法解決了這個問題。 2)它是基於短語的。所以它依賴於短語而不僅僅是單詞。
近來,已經有使用語義而不語技術(例如,從每篇文章中提取維基百科或DBpedia的概念,並利用而不只是詞)。
相關問題
- 1. 新聞聚合器
- 2. 新聞聚合器的種類
- 3. 新聞/標籤聚合包?
- 4. Drupal新聞聚合模塊?
- 5. 新聞聚合器網站託管
- 6. 如何創建新聞聚合器?
- 7. RSS新聞聚合器如何對數據進行分類?
- 8. 用於分組新聞文章的遞增聚類算法?
- 9. 總新聞在新聞組
- 10. Typo3 tt新聞類別
- 11. 發送新聞饋送新facebook.php類
- 12. 新聞文章多類分類算法
- 13. 爲新聞分類指定類別
- 14. 將來自不同來源的類似新聞報道聚集在一起
- 15. 如何構建一個聚合和平面類型的新聞提要?
- 16. 有人知道谷歌新聞用於他們的聚類算法嗎?
- 17. 新聞ID TYPO3的RealURL新聞鏈接
- 18. 重定向從/新聞到/新聞/
- 19. 新聞提要API的一般新聞
- 20. 用於創建新聞/主題聚合器網站的語言
- 21. 通過時間片沃森發現新聞聚合返回null
- 22. 與Neml4j中的Gremlin聚合獲取相關新聞
- 23. 沃森發現新聞聚合的過濾器和時間片
- 24. 有沒有什麼好的c#,.net新聞聚合器?
- 25. 用SQL查詢計數新聞類別
- 26. 只有新聞獲取類別
- 27. 顯示新聞
- 28. TYPO3新聞hidePagination
- 29. 如何使新聞列表從新聞節目包作爲新聞列表
- 30. 新聞腳本插入新聞數據,但沒有編輯新聞
感謝安迪。感謝你的幫助。 從您的答案研究這個主題時,我發現了一些有用的鏈接。我在這裏發表評論,以便任何對此主題感興趣的人都可以有一個出發點。 分層合併聚類 http://nlp.stanford.edu/IR-book/html/htmledition/hierarchical-agglomerative-clustering-1.html 教程聚類算法 HTTP://home.dei.polimi .it/matteucc/Clustering/tutorial_html/kmeans.html 信息檢索簡介 http://nlp.stanford.edu/IR-book/html/htmledition/irbook.html – niraj 2009-04-29 15:24:29