2016-11-26 51 views
-1

我正試圖在python中執行降維。我有文字和他們的頻率計數。我想通過對其進行維度降低來減少文本的數量。例如,如果我有一個文本文件和他們的頻率如何減少在Python中的項目數量?減少頻率向量中的項目數python

+0

確定數據中的差異來源,刪除其餘部分。在bag-of-words模型中,刪除冗餘數據同時保留差異的一種方法是刪除全局常用詞('a','''是'等)。只保留特定的文字。 –

回答

0

減少維度的方法有很多。沒有正式的關於你的要求,很難推薦(另外,請先看看有關這個問題的文獻)。

在很多情況下,您可以隨意刪除尺寸。例如。 minhash以這種方式尋找接近重複的文檔。