我需要一個weka訓練文件(arff)來創建一個名稱(String)和一個與該名稱相關聯的字符串數組,以便分類器將該名稱與這些字符串相關聯文本。對於這個任務,我如何在Weka中創建一個屬性爲String的屬性?或者有沒有其他方法可以做到這一點?weka中的字符串數組屬性
(我用樸素貝葉斯分類器)
例如: 迪皮卡·沙阿,貪婪的讀者,有趣,漂亮
所以,如果我有任何上面所給出的迪皮卡·沙阿的字符串的句子,它應該將句子分類爲Deepika Shah。
編輯: 我需要使用句子中的單詞和短語將句子分類爲關於名稱。所以我給出了一組與名稱相關的字符串以及它們與之相關聯的名稱。分類器應該從句子中找到類。或者,也可以在從句子中提取特徵後(假設我已提取特徵)。
那麼,你的名字是你想要預測的字符串數組的類嗎?你能提供至少一個例子,以便我們可以清楚地瞭解。 – drp
是的,名字是班級。 – zoozoofreak
然後在你的String數組上使用StringToWordVector過濾器(我想你的字符串數組就是說「你是個好人」)。在StringToWordvector類中,您可以將字符串數組(由一個或多個單詞組成的句子)轉換爲N-gram格式,您可以通過Tokenizer類指定N的任何值。您需要將String數組指定爲String屬性n arff文件。在arff文件中加上引號的值('你是個好人')。如果你不明白這個評論,讓我知道我會在答案部分詳細提供anser。 – drp