5
我有一個文檔的語料庫,我想將每個文檔表示爲一個向量。基本上,該矢量對於文檔中出現的單詞以及其他單詞(出現在語料庫中的其他文檔中而不存在於該特定文檔中)將具有1,它將具有0.如何爲所有文檔創建該矢量Weka中的文件?如何使用Weka創建一個單詞包?
有沒有使用Weka做到這一點的快速方法?我還希望Weka在創建此向量之前刪除停用詞,並在可能的情況下進行一些預處理。
感謝 阿布舍克小號
我有一個文檔的語料庫,我想將每個文檔表示爲一個向量。基本上,該矢量對於文檔中出現的單詞以及其他單詞(出現在語料庫中的其他文檔中而不存在於該特定文檔中)將具有1,它將具有0.如何爲所有文檔創建該矢量Weka中的文件?如何使用Weka創建一個單詞包?
有沒有使用Weka做到這一點的快速方法?我還希望Weka在創建此向量之前刪除停用詞,並在可能的情況下進行一些預處理。
感謝 阿布舍克小號
您希望StringToWordVector過濾器。
它具有二進制發生和停止的選項,其中包括諸如詞幹,截短單詞列表,放棄罕見術語,案例摺疊等。