2016-04-16 24 views
-1

我想羣集推文檢測突發新聞。我使用DBSCAN作爲聚類技術。我無法達到epsilon和min_sample_points的良好價值。爲了對推文進行分組,我正在批量發佈2000條推文並對其應用聚類算法。對於feauture提取,我使用scikit.learn包中的tf-idf向量化工具。使用max_df = 0.6和min_df = 5並將bi-grams用作向量化程序的參數。整個結果顯示大多數推文是異常值,或者是將很多隨機推文放入單個羣集中。我已經使用的值的例子 - eps = 0.2和min_samples = 8。我也避免了K-means算法,因爲沒有簇(k)不能預見到這個問題,並且簇的形狀可能不一定是球形。決定DBSCAN算法的參數鳴叫羣集

+0

我似乎解決了我自己的問題。問題是,我的數據源是Twitter流媒體API,它只能提供給定時間內總推文數量的1%左右。一批大約2000條推文中的推文在很大程度上是非常不同的。維護min_sample points = 1解決了這個問題,eps的約0.5-0.8是好的。現在考慮一個值得你的集羣可以忽略大小爲1的集羣。根據你的問題,你可以有一個閾值羣集大小將其標記爲有價值的羣集。選擇eps的關鍵在於查看輸入到聚類中的稀疏矩陣Algo – Walker894

回答

0

對於突發新聞,有比聚類更好的方法。

文本數據,特別是Twitter令人難以置信的嘈雜。許多推文只是完全廢話。但主要問題是他們太短。如果你只有幾句話,那麼測量距離的數據太少。 「汽車撞牆了。」和「華爾街的汽車」有非常相似的詞(基於TF-IDF),但它們的含義卻非常不同。

所以我並不感到驚訝,這並不好。它實際上不是「失敗」的聚類,而是你的距離函數。

+0

然後,您可以提出可選距離測量嗎?我正在過濾推文以獲得僅使用多項式naives bayes的新聞推文,其顯示89% ..集羣只在這些新聞推文上完成。 – Walker894

+0

我認爲這是一個數據問題,而不是距離度量。 –