2014-01-21 107 views
1

我不能處理聚類秧雞庫。我有字符串屬性,所以我使用StringToWordVector過濾器,但是如何在聚類後從WordVector移回字符串表示以顯示「可讀性」結果? 我想恢復此操作:秧雞StringToWordVector過濾器逆轉(JAVA)

StringToWordVector filter = new StringToWordVector(); 
filter.setInputFormat(instancesToFilter); 
Instances dataFiltered = Filter.useFilter(instancesToFilter, filter); 

它可能嗎?

回答

2

StringToWordVector過濾器不能倒過來。但是,你至少有兩種可能性:

  • 如果你只是想看看或顯示在每個集羣中的原始字符串,您可以添加ID屬性,確保集羣中不使用(以避免意外行爲),然後從原始字符串中恢復文本(ARFF文件)。
  • 如果要顯示每個羣集內容的一些有意義的摘要,則可以輸出每個羣集中最頻繁/最重的單詞。對文本進行聚類時,這是一種相當常見的方法。
1

該過濾器是有損

這樣,存在不能存在的(精確)逆變換。不過,你可以用某種方式來近似它。

請考慮查看過濾器的源代碼。