如何使用Weka創建一個單詞包？

我有一個文檔的語料庫，我想將每個文檔表示爲一個向量。基本上，該矢量對於文檔中出現的單詞以及其他單詞（出現在語料庫中的其他文檔中而不存在於該特定文檔中）將具有1，它將具有0.如何爲所有文檔創建該矢量Weka中的文件？如何使用Weka創建一個單詞包？

有沒有使用Weka做到這一點的快速方法？我還希望Weka在創建此向量之前刪除停用詞，並在可能的情況下進行一些預處理。

感謝阿布舍克小號

2011-10-10 London guy

您希望StringToWordVector過濾器。

它具有二進制發生和停止的選項，其中包括諸如詞幹，截短單詞列表，放棄罕見術語，案例摺疊等。

2011-10-11 05:09:20 michaeltwofish

回答