2011-09-04 86 views
2

我有字符串列表。 (相當大的id和字符串分散在4-5個大文件中,每個大約有一個GB)。這些字符串格式如下:巨大的字符串列表上的文本挖掘

1,喜

2,嗨如何[Rú?

2,怎麼回事?

3,其中r u?

3,這是什麼意思

3,這意味着什麼

現在我想要做這些字符串文本挖掘,並要準備,我要表現在以下方式中的字符串樹形圖

1喜

2 - 嗨如何RU?

----How r u? 

3-這是什麼意思?

----what it means? 

3你在哪裏?

此輸出基於id之後的逗號後面的字符串的相似性(假設某個人使用這些字符串的人的ID)。如果其他人使用相同的單詞,則應根據他使用的字符串進行分組。

現在,它似乎是一個簡單的任務。但是我希望在hadoop/Mahout上做這樣的事情,或者可以在集羣Linux機器上支持大量數據的東西。 以及我應該如何解決這個問題的解決方案。我已經嘗試了Mahout中的不同方法,其中我嘗試創建序列文件和seq2sparse向量,然後嘗試執行羣集。但它不適合我。任何幫助或指示方向將是一個很大的幫助。

感謝&問候, 阿圖爾

回答

2

我認爲那是你真正需要的是層次聚類。有爲Mahout提出的one implementation,其中一個也在Shogun Toolbox(也爲大規模計算而設計)中實現。但很難保證它會奏效,因爲投入似乎很難。

+0

感謝Artur的回覆。我同意這種觀點是很難的,因爲我正在努力解決這個問題,從過去2-3周開始,現在我全部都失去了,這就是爲什麼我把它發佈在這裏。但是,如果您或任何人有任何關於如何解決這個問題的建議,我將不勝感激。我想我可以添加一些預處理步驟,如果它可以解決它。此外,我仍然是一個學習數據挖掘和學習新事物總是好的。 – user722856