一般來說,我想要做的是在幾個csv文件的「word」共享列中提取常用元素。 (2008.csv,2009.csv,2010.csv .... 2015.csv)提取幾個列表中的常見元素
所有文件都在相同的格式: '字', '計數'
'字' 包含一年中某個文件中的所有常用詞彙。
這裏是一個文件的快照:
只要存在具有共同的元素的兩個出8個文件,我想知道這些共享的元素和無論他們在哪裏(這是非常像tfidf計算... btw)
無論如何,我的目標是要知道一些頻繁的詞出現在這些f爾斯。 (據我所知,一個元素最多可以在五個文件中)
我想知道這些詞何時首次出現,即文件C中的一個詞,但不是文件B和A中的詞。
我知道+如果可能解決問題在這裏,但它是非常繁瑣的,我需要比較8中的2,8中的3,或8列中的4,在這種情況下,尋找共享元素。
這是我的工作了那麼遠,遠離了我所需要的代碼...我只是比較兩個元素出8個文件: code
誰能幫助?
你忘了發佈你到目前爲止的代碼。 –
請在您的問題中提供相關信息。鏈接可以刪除,我們在這裏幫助*你*。如果您能輕鬆一點,我們將不勝感激。 – zondo
這是如何像TFxIDF?你已經存檔了DF,但它在那裏結束。 – tripleee