我想羣集推文檢測突發新聞。我使用DBSCAN作爲聚類技術。我無法達到epsilon和min_sample_points的良好價值。爲了對推文進行分組,我正在批量發佈2000條推文並對其應用聚類算法。對於feauture提取,我使用scikit.learn包中的tf-idf向量化工具。使用max_df = 0.6和min_df = 5並將bi-grams用作向量化程序的參數。整個結果顯示大多數推文是異常值,或者是將很多隨機推文放入單個羣集中。我已經使用的值的例子 - eps = 0.2和min_samples = 8。我也避免了K-means算法,因爲沒有簇(k)不能預見到這個問題,並且簇的形狀可能不一定是球形。決定DBSCAN算法的參數鳴叫羣集
-1
A
回答
0
對於突發新聞,有比聚類更好的方法。
文本數據,特別是Twitter令人難以置信的嘈雜。許多推文只是完全廢話。但主要問題是他們太短。如果你只有幾句話,那麼測量距離的數據太少。 「汽車撞牆了。」和「華爾街的汽車」有非常相似的詞(基於TF-IDF),但它們的含義卻非常不同。
所以我並不感到驚訝,這並不好。它實際上不是「失敗」的聚類,而是你的距離函數。
+0
然後,您可以提出可選距離測量嗎?我正在過濾推文以獲得僅使用多項式naives bayes的新聞推文,其顯示89% ..集羣只在這些新聞推文上完成。 – Walker894
+0
我認爲這是一個數據問題,而不是距離度量。 –
相關問題
- 1. 收集鳴叫
- 2. DBSCAN算法可以創建一個小於minPts的集羣嗎?
- 3. DBSCAN返回部分集羣
- 4. DBSCAN集羣簇(sklearn python)
- 5. R:Twitter的鳴叫收集
- 6. DBSCAN中變化的羣集標籤
- 7. 使用scikit-learn獲取集羣成員/元素集羣DBSCAN
- 8. 通過ggplot2進行DBSCAN集羣繪圖
- 9. 確定DBSCAN算法的輸入值
- 10. 實時計算特定主題標籤鳴叫的數量
- 11. DBSCAN算法(遞歸邏輯)
- 12. DBSCAN集羣 - 當一個簇的邊界點被認爲是另一個集羣
- 13. DBSCAN的參數eps,python
- 14. DBSCAN中的參數估計
- 15. 使用python和DBSCAN集羣高維數據
- 16. 過濾鳴叫
- 17. 鳴叫報價
- 18. 獲取鳴叫
- 19. 抓取鳴叫
- 20. Java - 鳴叫計數器
- 21. 羣集數據參數
- 22. 集羣計算
- 23. DBSCAN算法和數據挖掘聚類算法
- 24. Android的Twitter鳴叫與默認的鳴叫分享
- 25. OpenMq集羣解決
- 26. 使用DBSCAN進行羣集出奇的慢
- 27. 獲取特定鳴叫的Tweet ID
- 28. 使用twython回覆給定的鳴叫
- 29. 檢查新鳴叫的最佳方法
- 30. 如何確定鳴叫的位置(共鳴)
我似乎解決了我自己的問題。問題是,我的數據源是Twitter流媒體API,它只能提供給定時間內總推文數量的1%左右。一批大約2000條推文中的推文在很大程度上是非常不同的。維護min_sample points = 1解決了這個問題,eps的約0.5-0.8是好的。現在考慮一個值得你的集羣可以忽略大小爲1的集羣。根據你的問題,你可以有一個閾值羣集大小將其標記爲有價值的羣集。選擇eps的關鍵在於查看輸入到聚類中的稀疏矩陣Algo – Walker894