巨大的字符串列表上的文本挖掘

我有字符串列表。（相當大的id和字符串分散在4-5個大文件中，每個大約有一個GB）。這些字符串格式如下：巨大的字符串列表上的文本挖掘

1，喜

2，嗨如何[Rú？

2，怎麼回事？

3，其中r u？

3，這是什麼意思

3，這意味着什麼

現在我想要做這些字符串文本挖掘，並要準備，我要表現在以下方式中的字符串樹形圖

1喜

2 - 嗨如何RU？

----How r u?

3-這是什麼意思？

----what it means?

3你在哪裏？

此輸出基於id之後的逗號後面的字符串的相似性（假設某個人使用這些字符串的人的ID）。如果其他人使用相同的單詞，則應根據他使用的字符串進行分組。

現在，它似乎是一個簡單的任務。但是我希望在hadoop/Mahout上做這樣的事情，或者可以在集羣Linux機器上支持大量數據的東西。以及我應該如何解決這個問題的解決方案。我已經嘗試了Mahout中的不同方法，其中我嘗試創建序列文件和seq2sparse向量，然後嘗試執行羣集。但它不適合我。任何幫助或指示方向將是一個很大的幫助。

感謝&問候，阿圖爾

來源

2011-09-04 user722856

我認爲那是你真正需要的是層次聚類。有爲Mahout提出的one implementation，其中一個也在Shogun Toolbox（也爲大規模計算而設計）中實現。但很難保證它會奏效，因爲投入似乎很難。

來源

2011-09-04 23:01:59

感謝Artur的回覆。我同意這種觀點是很難的，因爲我正在努力解決這個問題，從過去2-3周開始，現在我全部都失去了，這就是爲什麼我把它發佈在這裏。但是，如果您或任何人有任何關於如何解決這個問題的建議，我將不勝感激。我想我可以添加一些預處理步驟，如果它可以解決它。此外，我仍然是一個學習數據挖掘和學習新事物總是好的。 – user722856

巨大的字符串列表上的文本挖掘

回答

相關問題