我有字符串列表。 (相當大的id和字符串分散在4-5個大文件中,每個大約有一個GB)。這些字符串格式如下:巨大的字符串列表上的文本挖掘
1,喜
2,嗨如何[Rú?
2,怎麼回事?
3,其中r u?
3,這是什麼意思
3,這意味着什麼
現在我想要做這些字符串文本挖掘,並要準備,我要表現在以下方式中的字符串樹形圖
1喜
2 - 嗨如何RU?
----How r u?
3-這是什麼意思?
----what it means?
3你在哪裏?
此輸出基於id之後的逗號後面的字符串的相似性(假設某個人使用這些字符串的人的ID)。如果其他人使用相同的單詞,則應根據他使用的字符串進行分組。
現在,它似乎是一個簡單的任務。但是我希望在hadoop/Mahout上做這樣的事情,或者可以在集羣Linux機器上支持大量數據的東西。 以及我應該如何解決這個問題的解決方案。我已經嘗試了Mahout中的不同方法,其中我嘗試創建序列文件和seq2sparse向量,然後嘗試執行羣集。但它不適合我。任何幫助或指示方向將是一個很大的幫助。
感謝&問候, 阿圖爾
感謝Artur的回覆。我同意這種觀點是很難的,因爲我正在努力解決這個問題,從過去2-3周開始,現在我全部都失去了,這就是爲什麼我把它發佈在這裏。但是,如果您或任何人有任何關於如何解決這個問題的建議,我將不勝感激。我想我可以添加一些預處理步驟,如果它可以解決它。此外,我仍然是一個學習數據挖掘和學習新事物總是好的。 – user722856