2014-10-08 79 views
0

我有一個字符串的列表,我想分類爲組。然後我想要顯示來自每個組的字符串。字符串聚類(使用卦?)

說我的名單看起來是這樣的:

  • 敏捷的棕色狐狸跳過懶狗
  • 敏捷的棕色狐狸跳過懶狗!!!!
  • 的棕色狐狸跳過懶狗
  • 誠,侏儒運動員們煩惱淋巴
  • 侏儒運動員們煩惱lymph123
  • 我愛餅乾

然後我想表明這樣的事情(一個字符串從每類):

  • 敏捷的棕色狐狸跳過懶狗
  • 侏儒運動員們煩惱lymph123
  • 我愛餅乾

我知道卦是字符串分類一件很容易的和有用的解決方案爲「字符串是相似」和「串它們是不同的」。我也很確定他們可以用來將字符串列表分成類,但我不知道如何。

任何人都可以幫助我,還是應該使用完全不同的東西?

我更喜歡一種簡單且可維護性高的方法。

+0

你的問題是**聚類**,而不是**分類**(編輯標籤和標題) – lejlot 2014-10-08 15:36:31

回答

0

您幾乎可以使用任何聚類技術,只需從每個羣集中選擇一個表示形式。最簡單的方法之一是在你的文本的n-gram空間上使用k-medoids,並打印出簇的質心(因爲k-medoids需要質心作爲訓練集的一部分)

0

You haven沒有提到用於字符串聚類成組的標準。從你的問題來看,不清楚分組標準是什麼。我可以想象任何標準:

  • 串長度是成一定範圍內
  • 一些字母呈現(或不呈現)到字符串
  • 某些詞呈現(或不呈現)到字符串
  • 串有一些指標接近(例如編輯距離)
  • 串是由感
  • 關閉,數百..

請確切地提一下你的情況下什麼是分類標準。