決定DBSCAN算法的參數鳴叫羣集

-1

我想羣集推文檢測突發新聞。我使用DBSCAN作爲聚類技術。我無法達到epsilon和min_sample_points的良好價值。爲了對推文進行分組，我正在批量發佈2000條推文並對其應用聚類算法。對於feauture提取，我使用scikit.learn包中的tf-idf向量化工具。使用max_df = 0.6和min_df = 5並將bi-grams用作向量化程序的參數。整個結果顯示大多數推文是異常值，或者是將很多隨機推文放入單個羣集中。我已經使用的值的例子 - eps = 0.2和min_samples = 8。我也避免了K-means算法，因爲沒有簇（k）不能預見到這個問題，並且簇的形狀可能不一定是球形。決定DBSCAN算法的參數鳴叫羣集

來源

2016-04-16 Walker894

我似乎解決了我自己的問題。問題是，我的數據源是Twitter流媒體API，它只能提供給定時間內總推文數量的1％左右。一批大約2000條推文中的推文在很大程度上是非常不同的。維護min_sample points = 1解決了這個問題，eps的約0.5-0.8是好的。現在考慮一個值得你的集羣可以忽略大小爲1的集羣。根據你的問題，你可以有一個閾值羣集大小將其標記爲有價值的羣集。選擇eps的關鍵在於查看輸入到聚類中的稀疏矩陣Algo – Walker894

對於突發新聞，有比聚類更好的方法。

文本數據，特別是Twitter令人難以置信的嘈雜。許多推文只是完全廢話。但主要問題是他們太短。如果你只有幾句話，那麼測量距離的數據太少。「汽車撞牆了。」和「華爾街的汽車」有非常相似的詞（基於TF-IDF），但它們的含義卻非常不同。

所以我並不感到驚訝，這並不好。它實際上不是「失敗」的聚類，而是你的距離函數。

來源

2016-04-17 08:00:50

然後，您可以提出可選距離測量嗎？我正在過濾推文以獲得僅使用多項式naives bayes的新聞推文，其顯示89％ ..集羣只在這些新聞推文上完成。 – Walker894

我認爲這是一個數據問題，而不是距離度量。 –

決定DBSCAN算法的參數鳴叫羣集

回答

相關問題