如何使用Rapidminer處理XML文件進行分類

我是Rapidminer的新手。我有很多XML文件，我想根據關鍵字手動對這些文件進行分類。然後我想在這些數據上訓練一個像樸素貝葉斯和SVM這樣的分類器，並使用交叉驗證器來計算他們的表現。如何使用Rapidminer處理XML文件進行分類

您能否讓我知道不同的步驟？

我是否需要使用文字處理活動，如令牌化，TFIDF等？

2013-07-04 kailash

的步驟會去像這樣

遍歷文件 - 即通過遍歷文件夾中的所有文件和讀取每一個設置。
對於每個文件
- 將其作爲文檔讀取。
- 使用運算符（如Extract Information或Cut Document）將其標記爲包含合適的XPath查詢以輸出與文檔中提取的信息相對應的行。
創建一個包含所有行的文檔向量。這是使用TF-IDF或其他方法的地方。選擇取決於TF-IDF是一個通常的選擇，在這種情況下，重要的是要給予相對較少數量的文檔中經常出現的令牌更多的權重。
構建模型並使用交叉驗證來估計未看到的數據的性能。

我已經包含一個link到您可以用作此基礎的過程。它讀取包含XML文件的RapidMiner存儲庫，這是一個使用文本處理技術處理XML文檔的好例子。顯然，你將不得不爲你的情況做一些大的修改。

希望它有幫助。

2013-07-21 08:57:43 awchisholm

也許，答覆已經太遲了。但它可以幫助其他人。有一個名爲'text mining extension'的擴展，我使用的是6.1.0版本。所以你可以去RapidMiner> help>更新並安裝這個擴展。它將從一個目錄中獲取所有文件。它有可能使用

而且各種文本挖掘算法，我發現這個視頻教程，這可能是對你有所幫助，以及 https://www.youtube.com/watch?v=oXrUz5CWM4E

2015-04-01 15:41:57 user3050590

回答