我是Rapidminer的新手。我有很多XML文件,我想根據關鍵字手動對這些文件進行分類。然後我想在這些數據上訓練一個像樸素貝葉斯和SVM這樣的分類器,並使用交叉驗證器來計算他們的表現。如何使用Rapidminer處理XML文件進行分類
您能否讓我知道不同的步驟?
我是否需要使用文字處理活動,如令牌化,TFIDF等?
我是Rapidminer的新手。我有很多XML文件,我想根據關鍵字手動對這些文件進行分類。然後我想在這些數據上訓練一個像樸素貝葉斯和SVM這樣的分類器,並使用交叉驗證器來計算他們的表現。如何使用Rapidminer處理XML文件進行分類
您能否讓我知道不同的步驟?
我是否需要使用文字處理活動,如令牌化,TFIDF等?
的步驟會去像這樣
Extract Information
或Cut Document
)將其標記爲包含合適的XPath查詢以輸出與文檔中提取的信息相對應的行。我已經包含一個link到您可以用作此基礎的過程。它讀取包含XML文件的RapidMiner存儲庫,這是一個使用文本處理技術處理XML文檔的好例子。顯然,你將不得不爲你的情況做一些大的修改。
希望它有幫助。
也許,答覆已經太遲了。但它可以幫助其他人。有一個名爲'text mining extension'的擴展,我使用的是6.1.0版本。所以你可以去RapidMiner> help>更新並安裝這個擴展。它將從一個目錄中獲取所有文件。它有可能使用
而且各種文本挖掘算法,我發現這個視頻教程,這可能是對你有所幫助,以及 https://www.youtube.com/watch?v=oXrUz5CWM4E