cluster-analysis

    -2熱度

    1回答

    我正在研究一個涉及使用K均值模型進行異常檢測的項目。 但是,要獲得精確的幾乎和精確的結果,我需要找到K. 我的算法依賴於在我的模型的異常值一般由自己放置在羣集上的想法的最佳值。通常,「正常」數據將與其他正常數據聚集在一起,但異常數據會形成它們自己的聚類,因此表明存在異常。但是,我需要找到K的最佳值,以便我的算法能夠正常工作,並查看它是否合適。 關於如何找到一個好的K值的任何想法? 這是「正常的」虛

    -2熱度

    2回答

    這裏有個簡短的問題。我想知道什麼時候和什麼情況使用單熱編碼,什麼時候應該使用虛擬變量。 我打算用絕對的和數值變量做聚類分析。我在一個論壇上讀到,我可以嘗試使用單熱編碼對分類變量進行編碼。但我想知道是什麼使它與虛擬變量不同。 謝謝

    -1熱度

    1回答

    我還不確定集羣如何用於預測分析? 有人能告訴我如何從提取集羣中預測未來嗎?

    -1熱度

    1回答

    我有我試圖clusterize文本: # Training hasher = HashingVectorizer(non_negative=True,norm="l1", analyzer="char", ngram_range=(5,9)) vectorizer = make_pipeline(hasher, TfidfTransformer()) training = vectorize

    0熱度

    2回答

    我想將LDA算法應用於語料庫以找出相似的詞,如果我給一個單詞或詞組作爲輸入。如何才能做到這一點? 此外,LDA是否忽略文檔中單詞的順序?它是否也忽略了語料庫中文檔的順序? 還可以使用其他策略搜索類似的單詞。文檔中單詞的順序與我使用的文檔的語言無關,也就是說,我的文檔是一包單詞,單詞順序無關緊要。

    -1熱度

    1回答

    我有一個獨特的問題,我不知道任何算法可以幫助我。也許有人在這裏。 我有一個從許多不同來源(團隊)編譯的數據集。一個領域特別被稱爲「類型」。下面是一些類型示例值: APLE,蘋果,APPLS,ornge,水果,橘,橙Z,梨, 菜花,colifower,brocli,西蘭花,韭菜,蔬菜,蔬菜。 我希望能夠做的是將它們組合成例如水果,蔬菜等 換句話說,我有一個父級變量(水果或蔬菜在這個例子中)各種排列的

    0熱度

    1回答

    我正在嘗試R包apcluster上我想要羣集的對象,但我遇到性能/內存問題,並且我懷疑我做得不對。我想聽聽你的意見。 總之:我有一套約13000個對象。每個對象都與一組2到5個「特徵」相關聯。任何兩個對象i和j之間的相似性(最終我想要聚類)等於它們共有的特徵數量除以它們「跨越」的不同特徵的總數量。例如。如果i = {a,b,c}和j = {c,d},那麼sim [i,j] = 1/4 = 0.25

    0熱度

    1回答

    我正在使用「ComplexHeatmap」包創建矩陣中相關性的熱圖。 我想用我自己的聚類的熱圖的樹狀圖,所以我運行下面的代碼:, library(ComplexHeatmap); mat = matrix(rnorm(800),80,10); cor.mat= cor(mat) dist.mat = (1-cor.mat)/2; rowdist = dist(as.matrix(dist.

    0熱度

    1回答

    我確實有一個完整的網絡圖,每個頂點都相互連接,它們只在不同的權重形式上有所不同。一個示例網絡將是:一個貿易網絡,其中每個國家都以某種方式相互連接,並且僅以不同的交易量形式存在差異。 現在的問題是我如何能夠以這種形式的網絡執行社區檢測。通常的嫌疑人(算法)只能在未加權或不完整的網絡中執行。主要問題是測地線無處不在。 兩個選項走進了我的腦海: 剪切網絡成小塊,通過一定的「重量閾值水平」 或者使用聚類算

    0熱度

    1回答

    我有觀察的樣本集如下 var1 var2 var3 var4 1 2 1 1 3 2 1 3 1 2 0 1 3 2 2 3 所有值在本質上分類。我想將第一行和第三行分組到一個集羣,將第二行和第四行分組到另一個集羣。我認爲在這種情況下單熱編碼不是有效的,因爲分類變量不具有任何等級,並且它們純粹是名義上的。 (這些行不一定必須完全相同)。是否有預先建立的數學算法來根據相似性/頻率